Ein konkreter Anwendungsfall für Open Data

Diskussionen über Open Data bleiben oft abstrakt, die Frage nach einem konkreten Anwendungsfall schwebt immer wieder im Raum. “Wer will denn überhaupt diese Daten haben?” Um diese Frage mit einem Beispiel zu beantworten: ich.

Mein Anwendungsfall ist der Aufbau einer Hochschulbibliographie. Dort sollen nicht nur die Autoren und ihre Publikationen verzeichnet werden, das System soll vielmehr ein Abbild der Forschungsaktivität der Hochschule sein. Dazu setzen wir auf VIVO. Und VIVO arbeitet mit Linked Data.

Ich habe das System und seine Komponenten hier im Blog schon beschrieben. Um meinen Anwendungsfall zu verstehen, reicht ein Blick auf dieses Profil der Boeing Company im VIVO der Cornell University.

Man kann in VIVO also Firmen abbilden, die in irgendeiner Art mit der Forschungs-, Lehr- oder Publikationstätigkeit in Verbindung stehen. Dies ist von vielen Seiten gewünscht. Manche möchten Transparenz darüber, wer die Hochschulforschung finanziert. Andere möchten wissen, welche ProfessorInnen die fleissigsten Drittmitteleinwerber sind. Manche möchten sich dadurch einfach als industrienah präsentieren oder sind auf der Suche nach neuen Kooperationspartnern. Motive gibt es vielerlei.

Nun kann man diese Daten natürlich per Hand eingeben oder die hausintern vorliegenden Daten (die berühmten Excel-Tabellen) nachnutzen. Doch ist das wirklich notwendig? Warum muss jede Hochschule diese Daten selbst pflegen? Welcher Aufwand steckt dahinter, die Daten korrekt und vollständig zu halten? Ich kann ihn nicht beziffern, eine grobe und meines Erachtens durchaus realistische Abschätzung lautet allerdings: er ist mir zu groß.

Und hier kommt der deutsche Datengeiz ins Spiel. OpenCorporates ist ein Verzeichnis für Firmeninformationen. Eines der besonderen Art. Die Daten sind unter ODbL lizenziert, es gibt tolle Schnittstellen und es finden sich dort Infos über sagenhafte 62,035,536 Firmen. Ein beachtlicher Berg!

Davon sind 40,155 aus Albanien, 45,423 aus Aruba, 68,711 aus Pakistan, 104,852 aus Gibraltar, 535,779 aus Irland, 723,842 aus Norwegen, 1,559,918 aus Südafrika oder 8,199,109 aus Großbritannien. Aus Deutschland: 0. Keine einzige.

Nichts gegen Aruba! Eine Insel, deren Wahlspruch “Una isla feliz” (kreolisch für “Eine glückliche Insel”) sicherlich berechtigt ist. Auch die wirtschaftlichen Aktivitäten sind bei 45.000 Firmen auf etwa 100.000 Einwohnern sehr beachtlich. Aber wie kann es sein, dass Aruba schafft, was für Deutschland nicht möglich ist? Liegt es daran, dass der Wahlspruch Deutschlands “Amtsgeheimnis” lauten könnte?

Die Diskussion darüber hatte ich kürzlich erst mit OKF DE, Marian Steinbach und Friedrich Lindenberg. Es wird Zeit, dass sich etwas tut.

Harsche Kritik an Govdata.de

Es wurde schon viel zu den Plänen zum deutschen Open-Data-Portal des Bundes, Govdata.de, geschrieben:

Die Überschriften sagen es schon recht deutlich: so wird das nichts. Hauptkritikpunkt ist die Wahl einer eigens geschaffenen Lizenz. Die Diskusssion wurde zusammengefasst auf Not-your-govdata.de, einer Kampagnenseite, auf der man auch gleich seinen Unmut gegen das gewählte Modell kundtun kann.

Schufa will auch DNB-Katalog nutzen

Wie gerade bekannt wurde, plant die Schufa eine Kooperation mit dem Hasso-Plattner-Institut (HPI). Federführend für das Projekt SchufaLab@HPI auf Seite des HPI ist Felix Naumann. Untersucht werden soll laut NDR, wie Daten aus dem Web genutzt werden können, um die Kreditwürdigkeit von Personen besser einschätzen zu können. Dazu wird u.a. erwogen, soziale Netzwerke wie Facebook oder Twitter auszuwerten.

Dem NDR liegen “vertrauliche Dokumente” vor, die das Forschungsvorhaben genauer skizzieren:

Man spricht von “Projektmöglichkeiten und Denkrichtungen”, die jedoch vor allem in eine Richtung gehen: aus unzähligen Quellen im Internet sollen gezielt Daten über Verbraucher gesammelt werden. Bei Facebook zum Beispiel, wo man auch die Kontakte der Mitglieder betrachten könne, um Beziehungen zwischen Personen zu untersuchen und hierbei Zusammenhänge mit der Kreditwürdigkeit der Verbraucher zu finden. Doch die Liste ist viel länger: Es geht um berufliche Netzwerke wie Xing oder LinkedIn, den Kurznachrichtendienst Twitter, Personensuchmaschinen wie Yasni, Geodatendienste wie Google Street View und selbst Mitarbeiterverzeichnisse von Unternehmen oder den Autorenkatalog der Deutschen Nationalbibliothek.

Der Autorenkatalog der DNB? Positiv, wenn man überhaupt auftaucht? Oder je nach Verschlagwortung der von der Person geschriebenen Werke?

Ich bin gespannt, ob die Gesellschaft für Informatik, deren assoziiertes Mitglied Felix Naumann ist, auf die Einhaltung der “Ethischen Leitlinien” aufmerksam machen wird. Ich greife mal Artikel 7 (“Beteiligung”) heraus:

Vom Mitglied in einer Führungsposition wird zusätzlich erwartet, dass es dazu beiträgt, die von der Einführung von Informatiksystemen Betroffnen [sic!] an der Gestaltung der Systeme und ihrer Nutzungsbedingungen angemessen zu beteiligen. Von ihm wird insbesondere erwartet, dass es keine Kontroll- und Überwachungstechniken ohne Unterrichtung und Beteiligung der Betroffenen zulässt.

Wenn die Berichterstattung des NDR korrekt ist, bekommen wir hier die schmutzige dunkle Kehrseite der Open-Data-Idee zu sehen. Herrn Naumann und seinen Kollegen wären hier Pionierleistungen zu bescheinigen! Unter Vorbehalt sage ich schon mal: “Glückwunsch”!

Siehe auch:Netzpolitik, Heise, viele andere. Die Forschungsmafia malt sich schon die kommende Kredit-SEO aus. Und der Postillon gibt hilfreiche Tipps.

LOD: data.nature.com

Nature Publishing Group releases linked data platform

Nature Publishing Group (NPG) today is pleased to join the linked data community by opening up access to its publication data via a linked data platform. NPG’s Linked Data Platform is available at http://data.nature.com.

The platform includes more than 20 million Resource Description Framework (RDF) statements, including primary metadata for more than 450,000 articles published by NPG since 1869. In this first release, the datasets include basic citation information (title, author, publication date, etc) as well as NPG specific ontologies. These datasets are being released under an open metadata license, Creative Commons Zero (CC0), which permits maximal use/re-use of this data.

NPG’s platform allows for easy querying, exploration and extraction of data and relationships about articles, contributors, publications, and subjects. Users can run web-standard SPARQL Protocol and RDF Query Language (SPARQL) queries to obtain and manipulate data stored as RDF. The platform uses standard vocabularies such as Dublin Core, FOAF, PRISM, BIBO and OWL, and the data is integrated with existing public datasets including CrossRef and PubMed.

“NPG is delighted to be able to surface data on published articles from Nature and many other journals, going back to 1869,” said Jason Wilde, Business Development Director, NPG. “Linked data is an important next step in the evolution of scientific publishing and, over the coming months, we hope to be able to expose more meta-data on our content to enrich the semantic web.”

Linked data refers to the publishing of structured data that is linked to other related data. It allows users to query, explore and link data from datasets across the web. NPG joins governments from around the world and other organizations including the British Library, the New York Times and the Open University, in providing a linked data platform.

The platform complements other services NPG provides for developers, but incorporates a wider audience. It has been built in collaboration with information and publishing solutions specialist The Stationery Office (TSO) to support scaling.

More information about NPG’s Linked Data Platform is available at http://developers.nature.com/docs. Sample queries can be found at http://data.nature.com/query.

Die Plattform ist zur Zeit nicht erreichbar.

BPB-Dossier zu Open Data

Die Opalkatze macht auf ein neues Dossier der BPB aufmerksam:

Open Data steht für die Idee, Daten öffentlich frei verfügbar und nutzbar zu machen. Welches Potential verbirgt sich hinter den Daten, die Behörden und Ministerien, Parlamente, Gerichte und andere Teile der öffentlichen Verwaltung produzieren? Was kann man mit den Umwelt- und Wetterdaten, Geodaten, Verkehrsdaten, Haushaltsdaten, den Statistiken, Publikationen, Protokollen, Gesetzen, Urteilen und Verordnungen machen? Das Dossier stellt Fallbeispiele vor, von der Kontrolle der Arbeit amerikanischer Kongreßabgeordneter bis zu Baustellenmeldungen in deutschen Kommunen. Es klärt über das Potential offener Daten für eine nachhaltige demokratische Entwicklung auf und zeigt, wie Datenjournalisten mit diesen Datensätzen umgehen.

Am Dossier “Open Data” haben die üblichen Verdächtigen Daniel Dietrich, Christiane Schulzki-Haddouti und Lorenz Matzat mitgewirkt. Hab’s noch nicht gelesen, aber für inhaltliche Qualität sollte damit gesorgt sein.