Open Data – eine Welt voller Möglichkeiten

In den Medien ist das Thema „Open Data“ immer wieder präsent. Für die allgemeine Öffentlichkeit ist von besonderer Relevanz, dass Open Data Transparenz und Demokratie fördern kann. Dies geschieht vor allem durch politisch relevante Verwaltungsdaten, deren Informationen die politische Meinungsbildung fördern sollen. So gibt es in Deutschland zum Beispiel das von der Finanzbehörde Hamburg herausgegebene Portal GovData. Hier werden Verwaltungsdaten, sofern es keine datenschutzrechtlichen Hindernisse gibt, proaktiv und zeitnah veröffentlicht und können ohne Einschränkungen frei weiterverwendet werden. Die Daten können nicht nur einfach von Bürgern eingesehen, sondern auch z.B. von Journalisten oder Services aggregiert und verarbeitet und so leichter verständlich und mit Erkenntnisgewinn weit verbreitet werden.

Open Data aus den Sozialen Medien

Auch Daten aus den Sozialen Netzwerken sind vielfach als Open Data verfügbar. Am Beispiel von Wikipedia und Twitter kann man zeigen, welche Möglichkeiten sich eröffnen, wenn Daten frei zur Verfügung stehen:

Wikimedia ist per se ja schon ein offenes System. Die Informationen aus den einzelnen Artikeln können von Dritten genutzt werden. So zeigt Google in seiner Suche zum Beispiel Definitionen von Begriffen, Lebensdaten von Personen oder Metadaten von Filmen direkt an, ohne dass man auf Wikipedia weiterklicken müsste. Dies entlastet auch die Server von Wikipedia von zu viel Traffic. Im Projekt „DBpedia“ werden die Informationen aus den Infoboxen in Wikipedia maschinell miteinander verlinkt und so die Daten als Linked Open Data (LOD) weiterverarbeitet und neue Informationen und Verbindungen aggregiert. Diese LOD stehen wiederum anderen Diensten frei zur Verfügung und tragen so einen Teil zum Semantic Web bei.

Doch auch die Daten, wie die Nutzer mit Wikipedia umgehen, sind frei verfügbar und führen zu so interessanten Untersuchungen wie diese von 2013 über die sogenannten „Edit Wars“ in Wikipedia (The Most Controversial Topics in Wikipedia: A Multilingual and Geographical Analysis). Dabei wird untersucht, in welchen Ländern über welche Themen am häufigsten und intensivsten gestritten wird. In der deutschsprachigen Wikipedia sind die Top-5-Themen zum Beispiel Kroatien, Scientology, Verschwörungstheorien_zum_11._September_2001, Studentenverbindung und Homöopathie. In der englischsprachigen Wikipedia sind es hingegen George_W._Bush, Anarchism, Muhammad, List_of_World_Wrestling_Entertainment_employees und Global_warming. (Quelle)

Tweets bilden immer wieder die Grundlage für Sozialforschung. Die Forschergruppe floatingsheep hat 2013 eine „Hate Map“  mittels georeferenzierter Tweets erstellt, die untersucht, wo in den USA am meisten rassistische, homophobe oder gegen behinderte Menschen gerichtete Tweets abgesetzt werden. Auch wenn dies nur eine Stichprobe sein kann, weil nur wenige Prozent der Tweets überhaupt georeferenziert sind, so gibt es doch einen ersten interessanten Einblick, der zu weiterer Forschung führen kann.

Was mit Daten aus den Sozialen Netzwerken im Großen funktioniert, zeigt auch die Möglichkeiten für wissenschaftliche Forschungsdaten im kleineren Rahmen auf.

Die Möglichkeiten offener Forschungsdaten

Daten werden, insbesondere wenn sie aus Forschung, die mit öffentlichen Geldern finanziert wurde, entstehen, häufig als Allgemeingut angesehen, das frei öffentlich zugänglich gemacht werden muss. Auch fallen Daten in der Regel nicht unter das Urheberrecht, weil sie die Schöpfungshöhe nicht erreichen. Trotzdem gibt es aber einen moralischen oder „gefühlten“ Anspruch auf Urheberrecht. Schließlich hat der Forschende viel Zeit und Mühe in die Erhebung der Daten gesteckt. Die erhobenen Forschungsdaten sind das Kapital eines Wissenschaftlers. Sie bilden die Grundlage seiner Forschung. Selbstverständlich soll der Datenautor auch zuerst von seinen Daten profitieren und seine Forschung damit abschließen. Doch nach einer gewissen, individuellen Embargozeit und spätestens nach der Veröffentlichung der Forschungsergebnisse, sollten auch die zugrundeliegenden Daten veröffentlicht werden. Nicht nur führt dies zu einer transparenten und qualitativ hochwertigen Forschung, sondern es ermöglicht auch die Vernetzung verschiedener Datenquellen und völlig neue Forschung, die vorher nicht möglich wäre.

Das Beispiel der Ehec-Epidemie in Deutschland im Jahr 2011 zeigt, was geleistet werden kann, wenn wissenschaftliche Forschungsdaten zeitnah offen geteilt werden. Als das medizinische Universitätszentrum Hamburg-Eppendorf zusammen mit dem BGI-Shenzhen das Genom des Ehec-Bakteriums entschlüsselt hatte, wurde dieses sofort unter der CC0-Lizenz – also ohne Einschränkungen – veröffentlicht. Die Daten wurden direkt mit einem DOI (Digital Object Identifier) versehen und konnten so referenziert und geteilt werden. Dies ermöglichte Medizinern weltweit, sich am Kampf gegen das Bakterium und seine Auswirkungen zu beteiligen.

Lizenzen

Wie an den Beispielen oben zu sehen ist, regen freie und ohne Einschränkungen verfügbare Daten zu vollkommen neuer Forschung an und ermöglichen eine schnellere Suche nach Lösungen. Daher ist es wichtig publizierte Forschungsdaten unbedingt mit einer Lizenz zu versehen, die die erlaubte Nutzung der Daten genau beschreibt.  Dabei sollte darauf geachtet werden, dass die Forschungsdaten auch tatsächlich als „Open Data“ deklariert werden. Denn Daten, die nicht verändert und nicht kommerziell genutzt werden dürfen, bringen nur wenig weiteren Nutzen, bis auf die Verifizierung der eigenen Arbeit. Open Data Commons bringt es auf den Punkt: „Thus, licensing and definitions are important even though they are only a small part of the overall picture. If we get them wrong they will keep on getting in the way of everything else. If we get them right we can stop worrying about them and focus our full energies on other things.

Open Data Commons ist eine Stiftung, die Lizenzen für offene Daten und Datenbanken herausgibt. Obwohl auch die Creative Commons Lizenzen CC0, CC-BY, CC-BY-SA für die Lizenzierung von Daten geeignet sind, hat sich herausgestellt, dass für Daten und insbesondere Datenbanken besondere Lizenzen von Nutzen sind. In Deutschland gibt es wiederum eine eigene „Datenlizenz Deutschland“, die die Lizenzierung für deutsche Nutzer vereinheitlichen und vereinfachen soll.

Lange vorbei ist die Zeit in der Forschungsergebnisse ausschließlich auf gedrucktem Papier zur Verfügung standen. Soziale Netzwerke ermöglichen den weltweiten Wissenstransfer und Informationsaustausch synchron zur wissenschaftlichen Arbeit. Veröffentlichen Sie Ihre Forschungsdaten und nutzen Sie diese Welt voller Möglichkeiten.

... ist Mitarbeiterin im Referat PID- und Metadaten Services der TIB und dort vor allem für das Projekt PID Network zuständig.