Infobib

Interessantes aus Informations- und Bibliothekswesen

Du durchsuchst gerade das Archiv des Tags ‘open bibliographic data’.

Archiv: open bibliographic data

Adrian Pohl wurde für das Open-Data-Blog der Zeit interviewt. Unbedingt lesenswert! Es geht um Open Bibliographic Data, also die Veröffentlichung bibliographischer Daten unter freier Lizenz.

Sammlungen bibliographischer Daten können als eine Landkarte verstanden werden, die uns Orientierung gibt in der Landschaft unserer literarischen, wissenschaftlichen oder künstlerischen Erzeugnisse.

So können die Daten etwa in der Forschung genutzt werden. Für Historiker beispielsweise könnte die Frage interessant sein, in welchem Jahrhundert zu bestimmten Zeiten wo wichtige Publikationsorte waren. Mit automatisierten Abfragen offener Daten aus Bibliothekskatalogen ließe sich zügig eine Übersicht über die meistgenutzten Publikationsstandorte erstellen. Das ginge weit über das hinaus, was mit normalen Rechercheoptionen möglich ist.

Ein anderes Beispiel: Bibliotheksdaten werden bereits für Anwendungen genutzt, die den urheberrechtlichen Status eines Werkes berechnen, ob es geschützt oder gemeinfrei ist. Mehr freie Daten könnten diese Dienste enorm verbessern. Es lassen sich unzählige weitere Anwendungen denken.

Dabei verweist er auch auf die “Empfehlungen zur Öffnung bibliothekarischer Daten”1 , auf deren vorläufige Fassung Edlef Stabenau letztens schon hingewiesen hatte.


  1. Disclaimer: Ich bin Mitverfasser. []

Adrian Pohl machte in Inetbib auf den Leitfaden “Open Data – Freigabe von Daten aus Bibliothekskatalogen” (PDF) von Till Kreutzer aufmerksam:

National wie international veröffentlichen immer mehr bibliothekarische Organisationen Daten aus ihren Katalogen als Open Data. Ein Hemmnis bei der Freigabe von Katalogdaten sind jedoch oft vielfältige, zum Teil komplexe rechtliche Fragen, die für die Akteure erhebliche Herausforderungen bedeuten. Der Leitfaden soll hierbei Orientierung geben. Er richtet sich in erster Linie an Mitarbeiterinnen und Mitarbeiter von Bibliotheken der öffentlichen Hand und dabei insbesondere an Nicht-Juristen. Bei der Erarbeitung wurde besonders auf eine allgemeinverständliche Darstellung und Sprache geachtet.

Teil 1 des Leitfadens beschäftigt sich maßgeblich mit rechtlichen Fragen bei der Erstellung von Katalog-Datenbanken: Dabei wird aus rechtlicher Sicht erläutert, ob und, wenn ja, unter welchen Voraussetzungen, einzelne Daten und Angaben urheberrechtlichen Schutz genießen können. Im Anschluss wird untersucht, unter welchen Umständen Anbietern von Katalogdaten neben einem urheberrechtlichen Schutz an den einzelnen Daten ein Schutzrecht an der Gesamtheit der Daten (sogenanntes Datenbankrecht) zustehen kann.

Teil 2 des Leitfadens nimmt sich der Frage an, unter welchen Bedingungen eine von der Bibliothek rechtmäßig erstellte Datenbank im Sinne von Open Data genutzt werden kann. Der Leitfaden schließt mit Empfehlungen zur Auswahl von Open-Data-Lizenzen.

Weitere Infos bei iRights.info.

David Weinberger stellt in seinem Blog zwei seiner Projekte vor, ShelfLife und LibraryCloud:

Upon the announcement of the beta sprint in May, we partnered up with folks at thirteen other institutions…an amazing group of people. Our small team at Harvard , with generous internal support, built ShelfLife and LibraryCloud on top of the integrated catalogs of five libraries, public and university, with a combined count of almost 15 million items, plus circulation data. We also pulled in some choice items from the Web, including metadata about every TED talk, open courseware, and Wikipedia pages about books. (Finding all or even most of the Wikipedia pages about books required real ingenuity on the part of our team, and was a fun project that we’re in the process of writing up.)

The metadata about those items goes into LibraryCloud, which collects and openly publishes that metadata via APIs and as linked open data. We’re proposing LibraryCloud to DPLA as a metadata server for the data DPLA collects, so that people can write library analytics programs, integrate library item information into other sites and apps, build recommendation and navigation systems, etc. We see this as an important way what libraries know can become fully a part of the Web ecosystem.

ShelfLife baut auf verschiedenen Annahmen auf. Unter anderem: Libraries are social systems. Library items are social objects. A library navigation system should be social as well.

Einen Prototypen gibt es auch. Mehr Infos in seinem Blog.

Im Koalitionsvertrag der Grün-Roten Koalition in Baden-Württemberg (PDF) sind zwei erfreuliche Abschnitte zu finden. Der Erste beschäftigt sich mit “Leistungsfähiger Informationsinfrastruktur und Open Access” (S. 14):

Der Zugang zu Datenbanken und E-Journals sowie die Nachhaltigkeit und Nachnutzung wissenschaftlicher Daten wird neben der Geräteausstattung ein immer wichtigerer Faktor für Forschungsund Innovationsprozesse. Wir werden deshalb verstärkt in die Informationsversorgung investieren.

Gleichzeitig wollen wir größtmögliche Transparenz und allgemeine Zugänglichkeit zu wissenschaftlichen Daten herstellen. Dazu werden wir gemeinsam mit den Hochschulen und Universitätsbibliotheken des Landes eine Open-Access-Strategie entwickeln. Dabei prüfen wir, wie das Prinzip umgesetzt werden kann, alle öffentlich geförderten und alle durch das Land beauftragten Forschungsergebnisse kostenfrei der Öffentlichkeit zugänglich zu machen. Die Möglichkeit der Hochschulen zur Forschung im Auftrag Dritter darf dadurch nicht beeinträchtigt werden.

Weiterhin wird erhöhte Transparenz bei militärisch relevanter Forschung gefordert.

Der Zweite Abschnitt beschäftigt sich mit “Transparenz des Regierungshandelns im Netz” (S. 79):

Wir stehen für eine offene Gesellschaft und eine transparente Verwaltung. Die bisherigen Aktivitäten Baden-Württembergs im Bereich e-Government und digitaler Demokratie werden wir ausbauen. Dabei werden wir insbesondere auch auf die Barrierefreiheit aller öffentlichen Angebote achten, und darauf, dass Teilhabe am öffentlichen Leben auch ohne Netzzugang möglich bleibt. Zu den großen Chancen digitaler Netze gehört die Möglichkeit, die Grundlagen des Regierungshandelns transparent und zugänglich zu machen.

In einem umfassenden Informationsfreiheitsgesetz werden wir gesetzliche Regelungen treffen, damit Bürgerinnen und Bürger unter Beachtung des Datenschutzes grundsätzlich freien Zugang zu den bei den öffentlichen Verwaltungen vorhandenen Informationen haben. Wir werden unser Regierungshandeln daran orientieren, die zugrunde liegenden Daten und Dokumente weitestmöglich öffentlich zugänglich zu machen. Hier orientieren wir uns am Grundsatz „Open Data“.

Drei Bibliotheken in Baden-Württemberg (Konstanz, Mannheim, Tübingen) gehen in dieser Hinsicht mit gutem Beispiel voran. Sie haben ihre Katalogdaten unter CC0 veröffentlicht. Die UB Mannheim bietet Linked Open Data (zum SPARQL-Endpoint) wie kürzlich schon hier erwähnt.

Daniel Dietrich machte in der Mailingliste des Open-Data-Networks auf das Linked Open Data Star Scheme aufmerksam. Es dient dazu, veröffentlichte Daten nach ihre Nachnutzbarkeit zu bewerten.

no star Web data
one star open Web data
two star open Web data
three star open Web data
four star open Web data
five star open Web data

Die Bewertungskriterien basieren auf den 5 LOD-Sternen von Tim Berners-Lee. Dies Schema lässt sich auch übertragen auf Open Bibliographic Data. Eine Erweiterung der Sterne um eine maschinenlesbare Fassung (z.B. mit rel-license) der Kriterien wäre allerdings wünschenswert.

Die UB Dortmund macht alles richtig und veröffentlicht ihre Katalogdaten gemäß den Open Bibliographic Data Principles unter CC0-Lizenz:

Dies bedeutet, dass allen interessierten Personen und Institutionen für die Daten aus unserem Katalog ein Nutzungsrecht eingeräumt wird. Unsere Katalogdaten werden damit ‘gemeinfrei’ und können zeitlich und inhaltlich uneingeschränkt genutzt werden. Der Nutzer muss keinerlei Rechenschaft über den Zweck der Nutzung ablegen und kann die Daten beliebig modifizieren. Die Daten stehen unter der Creative Commons Lizenz CC0 zum Download zur Verfügung. Unser Katalog umfasst derzeit ca. 1,2 Millionen bibliographische Datensätze. Die Datenfreigabe erfolgt in Kooperation mit dem Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz). Die bibliographischen Daten aus dem Katalog können beispielsweise dazu verwendet werden, Webanwendungen zu erstellen, die auf diesen Daten basieren.

Mehr Infos gibt’s im Blog der UB Dortmund, die Downloads sind beim hbz zu finden. Das hbz ist inzwischen weltweit einer der größten Antreiber der Open-Bibliographic-Data-Gemeinde.

Die TIB hat Ihre Katalogdaten halbfrei zum Download bereit gestellt.

Sämtliche von der TIB für den Katalog erfassten bibliografischen Daten werden unter der CC-Lizenz Namensnennung – keine kommerzielle Nutzung – Deutschland 3.0 bereit gestellt und können heruntergeladen, modifiziert und für eigene Zwecke genutzt werden.

Durch die gewählte Lizenz ist eine umfassende Nutzung der Daten leider unmöglich, vgl. die Prinzipien zu offenen bibliographischen Daten:

Darüber hinaus empfehlen wir – insbesondere öffentlich finanzierte – bibliographische Daten und Sammlungen bibliographischer Daten explizit in die Public Domain zu geben durch die Nutzung der Public Domain Dedication and Licence oder des Creative Commons Zero Waivers. Dadurch werden die Nachnutzungsmöglichkeiten maximiert, ganz im Sinne des allgemeinen Ethos des Teilens im Bereich öffentlich geförderter Gedächtnisinstitutionen.

Aber eine Lizenz kann ja auch noch geändert werden, siehe Koblenz.

[via @nowakman]

Auf drei Empfehlungen des Wissenschaftsrats macht Wisspub aufmerksam.

Adrian Pohl analysiert eine Aussage aus den “Übergreifenden Empfehlungen”, die sich mit zwei verschiedenen Ansätzen der Metadatenbereitstellung beschäftigt: Linked Open Data vs. WorldCat, oder: Eine Alternative, die keine ist.

Am 3. Februar soll darüber hinaus eine Empfehlung zur “Zukunft des bibliothekarischen Verbundsystems in Deutschland” veröffentlicht werden.

Im Rahmen der Expertenkonferenz Open Access and Open Data hat die Deutschen Zentralbibliothek für Medizin (ZB MED) in einer Pressemitteilung bekannt gegeben, dass die Katalogisate der ZB MED ab sofort unter CC0 zum Download, zur Verbreitung, Bearbeitung etc. bereit stehen.

Die Deutsche Zentralbibliothek für Medizin (ZB MED) stellt ab sofort ihre Katalogdaten zur freien Nutzung bereit. Dazu gehören über 1.000.000 Medien – unter anderem Bücher und Zeitschriften – aus den Fachbereichen Medizin, Gesundheit, Ernährungs-, Umwelt- und Agrarwissenschaften. Durch eine Freigabe der Daten unter einer CC0-Lizenz ist es möglich, ohne jegliche Beschränkung die Daten herunter zu laden, zu modifizieren und für eigene Zwecke zu nutzen.

Die Daten sind auf der Open-Data-Seite im HBZ-Wiki im Format RDF – ISO 2709 zu finden. Die Daten sind vom Mai 2010 und in zwei Downloads (“Ernährung, Umwelt, Agrar” und “Medizin, Gesundheit”) unterteilt.

Alexander Stocker, Peter Scheir und Klaus Tochtermann beschreiben in “Die Wertschöpfungskette der Daten”1 vier mögliche Rollen2 in eben dieser Wertschöpfungskette.

  1. Anbieter von Daten am Web sind derzeit noch
    fast ausschließlich Anbieter von Rohdaten. [...]
  2. Anbieter von Semantic-Web-Daten sind solche,
    die Daten in einem durch Maschinen interpretierbaren
    Format bereitstellen.[...]
  3. Anbieter von Semantic-Web-Applikationen
    sind solche, die eigene oder fremde Semantic-
    Web-Daten in einer Semantic-Web-Anwendung
    verarbeiten und dabei für den Menschen
    konsumierbaren Output auf Basis der
    verarbeiteten Daten generieren. [...]
  4. Endnutzer sind schließlich alle Menschen, die
    eine durch Menschen interpretierbare Präsentation
    von Semantic-Web-Daten konsumieren. Menschliche Endnutzer kommen in der Praxis nicht direkt mit den für die Verarbeitung
    durch Maschinen aufbereiteten Semantic-Web-Daten in Berührung und wollen das vermutlich auch gar nicht.[...]

Bibliotheken können prinzipiell alle vier Rollen einnehmen.

Zuerst natürlich als Rohdatenanbieter von bibliographischen und anderen Daten. Wenn man weitere Wertschöpfungen zulassen möchte, müssen die Daten zwingend unter einer Lizenz veröffentlich werden, die Weiterverarbeitung jeglicher Art nicht ausschließt. Richtig gemacht haben es also unter anderem die Bibliothek des CERN oder USB Köln, die wie alle vom HBZ betreuten Open-Bibliographic-Data-Projekte unter CC0 publiziert sind.

Das Anbieten von Semantic-Web-Daten kann teils im gleichen Auslieferungsschritt erfolgen. Ein Beispiel ist die gestern erfolgte Veröffentlichung eines Teils des Katalogs der British Library als RDF-Dump. Auf der Webseite der BL sind die Bedingungen erläutert:

As part of its work to open its metadata to wider use beyond the traditional library community, the British Library is making copies of its main catalogue and British National Bibliography datasets available for research purposes. Files are initially being made available in RDF/XML [...] and are distributed under a Creative Commons CC0 1.0 Universal Public Domain Dedication license.

Eine Weiterverarbeitung ist ausdrücklich erwünscht und durch die gewählte Lizenz auch möglich. Linked Data will auch die Deutsche Nationalbibliothek mit der GND anbieten. In die Wertschöpfungskette können die Daten jedoch nicht gelangen, da die Daten nicht kommerziell genutzt werden dürfen. Abgesehen davon, dass es volkswirtschaftlicher Unsinn ist, staatlich finanzierte Daten nicht zur Verwendung in kommerziellen Unternehmungen freizugeben, ist damit auch die Verwendung in der Wikipedia und Schwesterprojekten nicht möglich. Leider gilt hier: nur gucken, nicht anfassen!

Im Open Bibliographic Data Guide hat das JISC erläutert, wie man es richtig macht. Oliver Flimm schreibt (zum Reader und der Wichtigkeit der Lizenzwahl):

Nur so kann ein realer Nutzen innerhalb der Bibliothekswelt und anderswo entstehen. So sind wir z.B. sehr dankbar über Rückmeldungen von Fehlern in Verbund-Katalogisaten, bei denen wir Bestand haben, (Verknüpfung von Titeln mit Personensätzen, die eine falsche PND besitzen), die extern bei der Verarbeitung unserer geöffneten Daten aufgefallen sind.

Über Bibliotheken in den anderen beiden Rollen, also als Datennutzer wird es hier demnächst etwas zu lesen geben.

Weitere Informationen zu Open Bibliographic Data:

Adrian Pohl: Open Bibliographic Data in 2010. Ein vorläufiger Überblick


  1. Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104 []
  2. S. 99 []

Bibliotheken als Datenanbieter von CH steht unter einer Creative Commons Namensnennung-Weitergabe unter gleichen Bedingungen 3.0 Deutschland Lizenz. blogoscoop
Infobib läuft unter Wordpress.3.0.5 | Theme: angepasst nach : Gabis Wordpress-Templates | Creative Commons Lizenzvertrag 24 Verweise - 0.351 Sekunden.