ShelfLife und LibraryCloud

David Weinberger stellt in seinem Blog zwei seiner Projekte vor, ShelfLife und LibraryCloud:

Upon the announcement of the beta sprint in May, we partnered up with folks at thirteen other institutions…an amazing group of people. Our small team at Harvard , with generous internal support, built ShelfLife and LibraryCloud on top of the integrated catalogs of five libraries, public and university, with a combined count of almost 15 million items, plus circulation data. We also pulled in some choice items from the Web, including metadata about every TED talk, open courseware, and Wikipedia pages about books. (Finding all or even most of the Wikipedia pages about books required real ingenuity on the part of our team, and was a fun project that we’re in the process of writing up.)

The metadata about those items goes into LibraryCloud, which collects and openly publishes that metadata via APIs and as linked open data. We’re proposing LibraryCloud to DPLA as a metadata server for the data DPLA collects, so that people can write library analytics programs, integrate library item information into other sites and apps, build recommendation and navigation systems, etc. We see this as an important way what libraries know can become fully a part of the Web ecosystem.

ShelfLife baut auf verschiedenen Annahmen auf. Unter anderem: Libraries are social systems. Library items are social objects. A library navigation system should be social as well.

Einen Prototypen gibt es auch. Mehr Infos in seinem Blog.

LOD: Machen wir es nicht, machen es andere!

Nicht nur scheint LOD also aus rationalen und Effizienzgründen die bessere Wahl zum Aufbau zukünftiger Informationsinfrastrukturen zu sein. Auch könnte es der Bibliothekswelt dabei helfen, relevant zu bleiben und nicht durch andere Organisationen verdrängt zu werden.

Jakob Voß hat am Wochenende darauf hingewiesen, dass Wikimedia überlegt, ein Projekt “Bibliographisch-archivalische Datenbank” anzugehen, in dem eine offene bibliographisch-archivalische Datenbank angelegt werden soll zur Nachnutzung durch die verschiedenen Wikimedia-Projekte aber auch durch andere Akteure wie Wissenschaftler oder Google Books.

Wenn bibliothekarische Organisationen nicht eine wichtige Rolle dabei übernehmen, bibliographische Daten im großen Stil offen, strukturiert und leicht nachnutzbar zur Verfügung stellen, werden es schließlich andere tun…

[via Übertext]

Linked Open Data mit Sternchen

Daniel Dietrich machte in der Mailingliste des Open-Data-Networks auf das Linked Open Data Star Scheme aufmerksam. Es dient dazu, veröffentlichte Daten nach ihre Nachnutzbarkeit zu bewerten.

no star Web data
one star open Web data
two star open Web data
three star open Web data
four star open Web data
five star open Web data

Die Bewertungskriterien basieren auf den 5 LOD-Sternen von Tim Berners-Lee. Dies Schema lässt sich auch übertragen auf Open Bibliographic Data. Eine Erweiterung der Sterne um eine maschinenlesbare Fassung (z.B. mit rel-license) der Kriterien wäre allerdings wünschenswert.

Linked Open Data der UB Mannheim

Die UB Mannheim ist nach der Veröffentlichung ihrer Katalogdaten im letzten Jahr nun den konkreten Schritt gegangen, diese durch freie Lizenzierung tatsächlich nachnutzbar zu machen. Mehr dazu im Blog der UB Mannheim.

Warum das so ein wichtiger Schritt ist, erläutert Greg Grossmeier von der University of Michigan in seinem “Commitment to Compatibility”. Fazit:

By using the most compatible license available from Creative Commons, MLibrary enables efficient content creation. We make it possible for users to worry less about license incompatibility and permissions — and instead spend more time on the actual creation of quality content. We hope to see the positive influence of this throughout the local, national, and international library communities.

Es lohnt sich jedoch, das ganze Posting zu lesen.

Danke an Kai für den Hinweis!

Drei neue Empfehlungen des Wissenschaftsrats

Auf drei Empfehlungen des Wissenschaftsrats macht Wisspub aufmerksam.

Adrian Pohl analysiert eine Aussage aus den “Übergreifenden Empfehlungen”, die sich mit zwei verschiedenen Ansätzen der Metadatenbereitstellung beschäftigt: Linked Open Data vs. WorldCat, oder: Eine Alternative, die keine ist.

Am 3. Februar soll darüber hinaus eine Empfehlung zur “Zukunft des bibliothekarischen Verbundsystems in Deutschland” veröffentlicht werden.

Bibliotheken als Datenanbieter

Alexander Stocker, Peter Scheir und Klaus Tochtermann beschreiben in “Die Wertschöpfungskette der Daten” 1) Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104 vier mögliche Rollen 2) S. 99 in eben dieser Wertschöpfungskette.

  1. Anbieter von Daten am Web sind derzeit noch
    fast ausschließlich Anbieter von Rohdaten. […]
  2. Anbieter von Semantic-Web-Daten sind solche,
    die Daten in einem durch Maschinen interpretierbaren
    Format bereitstellen.[…]
  3. Anbieter von Semantic-Web-Applikationen
    sind solche, die eigene oder fremde Semantic-
    Web-Daten in einer Semantic-Web-Anwendung
    verarbeiten und dabei für den Menschen
    konsumierbaren Output auf Basis der
    verarbeiteten Daten generieren. […]
  4. Endnutzer sind schließlich alle Menschen, die
    eine durch Menschen interpretierbare Präsentation
    von Semantic-Web-Daten konsumieren. Menschliche Endnutzer kommen in der Praxis nicht direkt mit den für die Verarbeitung
    durch Maschinen aufbereiteten Semantic-Web-Daten in Berührung und wollen das vermutlich auch gar nicht.[…]

Bibliotheken können prinzipiell alle vier Rollen einnehmen.

Zuerst natürlich als Rohdatenanbieter von bibliographischen und anderen Daten. Wenn man weitere Wertschöpfungen zulassen möchte, müssen die Daten zwingend unter einer Lizenz veröffentlich werden, die Weiterverarbeitung jeglicher Art nicht ausschließt. Richtig gemacht haben es also unter anderem die Bibliothek des CERN oder USB Köln, die wie alle vom HBZ betreuten Open-Bibliographic-Data-Projekte unter CC0 publiziert sind.

Das Anbieten von Semantic-Web-Daten kann teils im gleichen Auslieferungsschritt erfolgen. Ein Beispiel ist die gestern erfolgte Veröffentlichung eines Teils des Katalogs der British Library als RDF-Dump. Auf der Webseite der BL sind die Bedingungen erläutert:

As part of its work to open its metadata to wider use beyond the traditional library community, the British Library is making copies of its main catalogue and British National Bibliography datasets available for research purposes. Files are initially being made available in RDF/XML […] and are distributed under a Creative Commons CC0 1.0 Universal Public Domain Dedication license.

Eine Weiterverarbeitung ist ausdrücklich erwünscht und durch die gewählte Lizenz auch möglich. Linked Data will auch die Deutsche Nationalbibliothek mit der GND anbieten. In die Wertschöpfungskette können die Daten jedoch nicht gelangen, da die Daten nicht kommerziell genutzt werden dürfen. Abgesehen davon, dass es volkswirtschaftlicher Unsinn ist, staatlich finanzierte Daten nicht zur Verwendung in kommerziellen Unternehmungen freizugeben, ist damit auch die Verwendung in der Wikipedia und Schwesterprojekten nicht möglich. Leider gilt hier: nur gucken, nicht anfassen!

Im Open Bibliographic Data Guide hat das JISC erläutert, wie man es richtig macht. Oliver Flimm schreibt (zum Reader und der Wichtigkeit der Lizenzwahl):

Nur so kann ein realer Nutzen innerhalb der Bibliothekswelt und anderswo entstehen. So sind wir z.B. sehr dankbar über Rückmeldungen von Fehlern in Verbund-Katalogisaten, bei denen wir Bestand haben, (Verknüpfung von Titeln mit Personensätzen, die eine falsche PND besitzen), die extern bei der Verarbeitung unserer geöffneten Daten aufgefallen sind.

Über Bibliotheken in den anderen beiden Rollen, also als Datennutzer wird es hier demnächst etwas zu lesen geben.

Weitere Informationen zu Open Bibliographic Data:

Adrian Pohl: Open Bibliographic Data in 2010. Ein vorläufiger Überblick

References   [ + ]

1. Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104
2. S. 99

Google Refine

Am Mittwoch wurde Google Refine 2.0 released. Google Refine kann dazu dienen, unordentliche Datenmengen aufzuräumen und nachnutzbar zu machen. Hat man z.B. eine Datei in der unterschiedliche Schreibweisen zur Beschreibung des selben Sachverhalts genutzt wurden, kann man sie mit Refine mühelos clustern. Mehr Infos dazu gibt es im Refine-Blog oder in diesen Tutorial-Videos:

Erste Spielereien mit Refine zeigen, dass es ein mächtiges, aber durchaus schnelles Tool ist. Einsatzszenarien sind zum Beispiel die Aufbereitung von Open Government Data vor der Publikation. Vor diesem Release hieß die Software Freebase Gridworks und wurde u.a. eingesetzt, um Daten für data.gov.uk aufzubereiten. Dieses Beispiel ist neben anderen im Google-Refine-Blog zu finden.

Trend Nr. 2 für 2010: Open (Government) Data / Linked Data

lod-datasets_2009-07-14

Christiane Schulzki-Haddouti nimmt mir die Worte aus dem Mund:

Open Data – so nicht nur mein Blick in die Kristallkugel – wird 2010 das große Thema werden und die Entwicklung des Internet in diesem Jahrzehnt wesentlich vorantreiben.

Und nicht nur die Entwicklung des Internets, auch gesellschaftliche, künstlerische und wissenschaftliche Entwicklungen können durch Open Data maßgeblich beeinflusst oder überhaupt erst ermöglicht werden. Infos zum Reinlesen gibt es z.B. hier von Lambert Heller. Dass sich auch Bibliothekswesen damit beschäftigen müssen, sollte spätestens nach dem Durchklicken dieser Vortragsfolien von Anne Christensen klar sein: