Bibliotheken als Datenanbieter

Alexander Stocker, Peter Scheir und Klaus Tochtermann beschreiben in “Die Wertschöpfungskette der Daten” 1) Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104 vier mögliche Rollen 2) S. 99 in eben dieser Wertschöpfungskette.

  1. Anbieter von Daten am Web sind derzeit noch
    fast ausschließlich Anbieter von Rohdaten. […]
  2. Anbieter von Semantic-Web-Daten sind solche,
    die Daten in einem durch Maschinen interpretierbaren
    Format bereitstellen.[…]
  3. Anbieter von Semantic-Web-Applikationen
    sind solche, die eigene oder fremde Semantic-
    Web-Daten in einer Semantic-Web-Anwendung
    verarbeiten und dabei für den Menschen
    konsumierbaren Output auf Basis der
    verarbeiteten Daten generieren. […]
  4. Endnutzer sind schließlich alle Menschen, die
    eine durch Menschen interpretierbare Präsentation
    von Semantic-Web-Daten konsumieren. Menschliche Endnutzer kommen in der Praxis nicht direkt mit den für die Verarbeitung
    durch Maschinen aufbereiteten Semantic-Web-Daten in Berührung und wollen das vermutlich auch gar nicht.[…]

Bibliotheken können prinzipiell alle vier Rollen einnehmen.

Zuerst natürlich als Rohdatenanbieter von bibliographischen und anderen Daten. Wenn man weitere Wertschöpfungen zulassen möchte, müssen die Daten zwingend unter einer Lizenz veröffentlich werden, die Weiterverarbeitung jeglicher Art nicht ausschließt. Richtig gemacht haben es also unter anderem die Bibliothek des CERN oder USB Köln, die wie alle vom HBZ betreuten Open-Bibliographic-Data-Projekte unter CC0 publiziert sind.

Das Anbieten von Semantic-Web-Daten kann teils im gleichen Auslieferungsschritt erfolgen. Ein Beispiel ist die gestern erfolgte Veröffentlichung eines Teils des Katalogs der British Library als RDF-Dump. Auf der Webseite der BL sind die Bedingungen erläutert:

As part of its work to open its metadata to wider use beyond the traditional library community, the British Library is making copies of its main catalogue and British National Bibliography datasets available for research purposes. Files are initially being made available in RDF/XML […] and are distributed under a Creative Commons CC0 1.0 Universal Public Domain Dedication license.

Eine Weiterverarbeitung ist ausdrücklich erwünscht und durch die gewählte Lizenz auch möglich. Linked Data will auch die Deutsche Nationalbibliothek mit der GND anbieten. In die Wertschöpfungskette können die Daten jedoch nicht gelangen, da die Daten nicht kommerziell genutzt werden dürfen. Abgesehen davon, dass es volkswirtschaftlicher Unsinn ist, staatlich finanzierte Daten nicht zur Verwendung in kommerziellen Unternehmungen freizugeben, ist damit auch die Verwendung in der Wikipedia und Schwesterprojekten nicht möglich. Leider gilt hier: nur gucken, nicht anfassen!

Im Open Bibliographic Data Guide hat das JISC erläutert, wie man es richtig macht. Oliver Flimm schreibt (zum Reader und der Wichtigkeit der Lizenzwahl):

Nur so kann ein realer Nutzen innerhalb der Bibliothekswelt und anderswo entstehen. So sind wir z.B. sehr dankbar über Rückmeldungen von Fehlern in Verbund-Katalogisaten, bei denen wir Bestand haben, (Verknüpfung von Titeln mit Personensätzen, die eine falsche PND besitzen), die extern bei der Verarbeitung unserer geöffneten Daten aufgefallen sind.

Über Bibliotheken in den anderen beiden Rollen, also als Datennutzer wird es hier demnächst etwas zu lesen geben.

Weitere Informationen zu Open Bibliographic Data:

Adrian Pohl: Open Bibliographic Data in 2010. Ein vorläufiger Überblick

References   [ + ]

1. Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104
2. S. 99

Google Refine

Am Mittwoch wurde Google Refine 2.0 released. Google Refine kann dazu dienen, unordentliche Datenmengen aufzuräumen und nachnutzbar zu machen. Hat man z.B. eine Datei in der unterschiedliche Schreibweisen zur Beschreibung des selben Sachverhalts genutzt wurden, kann man sie mit Refine mühelos clustern. Mehr Infos dazu gibt es im Refine-Blog oder in diesen Tutorial-Videos:

Erste Spielereien mit Refine zeigen, dass es ein mächtiges, aber durchaus schnelles Tool ist. Einsatzszenarien sind zum Beispiel die Aufbereitung von Open Government Data vor der Publikation. Vor diesem Release hieß die Software Freebase Gridworks und wurde u.a. eingesetzt, um Daten für data.gov.uk aufzubereiten. Dieses Beispiel ist neben anderen im Google-Refine-Blog zu finden.

Trend Nr. 2 für 2010: Open (Government) Data / Linked Data

lod-datasets_2009-07-14

Christiane Schulzki-Haddouti nimmt mir die Worte aus dem Mund:

Open Data – so nicht nur mein Blick in die Kristallkugel – wird 2010 das große Thema werden und die Entwicklung des Internet in diesem Jahrzehnt wesentlich vorantreiben.

Und nicht nur die Entwicklung des Internets, auch gesellschaftliche, künstlerische und wissenschaftliche Entwicklungen können durch Open Data maßgeblich beeinflusst oder überhaupt erst ermöglicht werden. Infos zum Reinlesen gibt es z.B. hier von Lambert Heller. Dass sich auch Bibliothekswesen damit beschäftigen müssen, sollte spätestens nach dem Durchklicken dieser Vortragsfolien von Anne Christensen klar sein: