GND per SPARQL

Die ZBW hat nun einen SPARQL-Endpoint für die GND (Fuseki) gebaut. Aus der dazugehörigen Mail von Joachim Neubert:

Der Endpoint ist rein experimentell und ohne jede Gewähr auf Verfügbarkeit oder Performanz. Ich würde mich freuen davon zu hören, wenn er sich für Experimente als hilfreich erweist (oder was ggf. verbessert werden könnte).

Dies ist nützlich u.a. für den Abgleich (Reconciliation) von eigenen Daten mit der GND zum Beispiel via Google Refine/OpenRefine.

Wikidata als Über-Klassifikation

Am Sonntag hat Lydia Pintscher in ihrem wöchentlichen Wikidata-Newsletter neue Properties bekannt gegeben. Und einige davon muten reichlich bibliothekarisch an:

impact factorMunicipality code (Denmark)USB IDHome worldCardinality of the groupInternet media typeBluebook abbreviationZ39.5 abbreviationISO 4 abbreviationCODENlanding siteUS Congress Bio identifierScopus Source IDScopus Affiliation IDScopus EIDScopus Author IDIPTC Media Topictopic’s main portalRegensburg ClassificationLibrary of Congress Classificationneutron number

Über die Nachnutzung der Daten (Scopus oder impact factor)  ließe sich im bibliothekarischen Kontext einiges schreiben. Besonders aufgefallen sind mir jedoch LoCC und RVK. Wenn die nun eine eigene Property haben, was denn noch?

Ein Blick in ein paar populäre Wikidata-Topics erhellt die Lage. Sport wurden folgende statements zugewiesen:

Welche Anwendungsmöglichkeiten gibt es? Reicht es künftig, auf ein Wikidata-Topic zu verlinken, um Ressourcen gleich in mehreren Klassifikationen zu verorten?

#vufindhh: Zur Statistik und Datenqualität im GBV-Zentral

Das 2. Deutsche VuFind-Anwendertreffen 1) Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank! hat Gerald Steilen (VZG) mit einer statistischen Übersicht zum GBV-Zentral (Folien, PDF) eröffnet. Der Vortrag gehörte wohl zu den Meistdiskutierten des Anwendertreffens. Und sowohl ein paar Zahlen als auch die daraus geschlossenen Konsequenzen sind in der Tat diskussionswürdig.

Requests (S. 6)

Die “Requests” klingen sehr beeindruckend. Die Bibliothek der Hochschule Hannover landet in den GBV-Zentral-Charts auf Platz 4 mit satten 32,8 Mio. Requests vom 1. Januar bis zum 12. September 2013. Das ist in der Tat beeindruckend.

Ich vermute jedoch hauptsächlich Google hinter diesen Aktivitäten. Bis vor kurzem hatten wir (IIRC) etwa 7,5 Mio Titel in unserem VuFind-Ausschnitt des GBV-Zentral. Wenn Google diese Seite viermal harvested sind wir bei 30 Mio. Jetzt sind es (dank DOAJ) schon 9 Mio. Titel, womit man schnell bei über 30 Mio ist.

Die “echte Katalognutzung” ist nach unserer Statistik deutlich geringer: 2) 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.

  • 20397 Besuche
  • 24804 Seitenansichten, 19699 einmalige Seitenansichten
  • 144 max. Aktionen pro Besuch

Bitte diese Anmerkung nicht als Kritik an den Zahlen verstehen! Im Vortrag ging es um den GBV-Zentral, nicht um Katalognutzung! Und da ist natürlich auch ein Google-Anfrage ein Request wie jeder andere auch. Wie vermutlich auch Anfragen aus der Autocomplete-Funktion oder den “Ähnlichen Titeln” und so weiter. Ich habe dies hier nur aufgeführt, weil ich mehrfach angesprochen wurde, wie wir zu diesen enormen Katalognutzungszahlen kämen.

Datensätze mit Sprachcode (Seite 11)

Abdeckung in DOAJ wird mit 1% (9976 Titel) angegeben. BASE weist für die Quelle DOAJ Articles 630.000 Titel mit unbekannter Sprache aus. Allerdings auch 567.000 englische Artikel, 174.000 portugiesische und noch viele, viele mehr:

Da die Daten es vom DOAJ in BASE geschafft haben, müsste der Import überdacht werden. Die Daten geben mehr her, als im GBV-Zentral momentan realisiert wird.

Personenangaben (S. 8ff)

Die im Vortrag genannten Angaben zu den Verfassern sind ohne eingehende und differenzierte Betrachtung nicht zu interpretieren. Zuerst ein kurzer Blick auf OLC. Dieser Artikel zur Friedensforschung hat in OLC einen Verfasser. Im GBV-Zentral auch. Dieser Artikel über Effizienzsteigerung hat im OLC auch einen Verfasser. Im GBV-Zentral allerdings nicht. Der Verfasser ist dort nur weitere beteiligte Person.

In der Personenfacette:
OLC: 028A $dNicolaus$aSombart
GBV-Zentral: 100 |a Sombart, Nicolaus

Nicht in der Personenfacette:
OLC: 028C/01 $dMatthias$aMeier
GBV-Zentral: 700 |a Meier, Matthias

Das Ursache liegt hier eindeutig in den Daten und ist schon in der Vorbemerkung des thematischen Teils “unselbständige Werke” der GBV-Katalogisierungsrichtlinien angelegt:

Mit dem thematischen Teil „Unselbstständige Werke“ liegt erstmals im GBV eine verbindliche Regelung für die Katalogisierung unselbstständiger Werke vor. Das hier beschriebene Datenmodell gibt der im GBVKat bereits in erheblichem Umfang stattfindenden Katalogisierung unselbstständiger Werke eine einheitliche Grundlage. Für die Katalogisierung im GBVKat ist allein diese Richtlinie verbindlich. Für die beim GBV angebotenen Aufsatzdatenbanken wie z. B. „Online-Contents“ oder die „Internationale Bibliographie der Zeitschriftenliteratur (IBZ)“ gelten teilweise davon abweichende Datenmodelle.

Die Richtlinie ist also verbindlich und einheitlich, außer bei diesem und jenem. Und diese Ausnahmen sollen nun im GBV-Zentral als Ganzes dargestellt werden. Zwei offensichtliche Lösungsansätze:

  1. Änderung der Katalogisierungsrichtlinie und tatsächliche Vereinheitlichung auch für OLC & Co.
  2. Pragmatischer Umgang mit den vorhandenen und heterogenen Daten.

Der pragmatische Umgang könnte für die Discovery-Interfaces in einer “Personen”-Facette münden, die Erstautoren mit allen weiteren Autoren, Herausgebern etc. in einen Topf wirft.

Sonstiges

Zu vielen anderen Punkten kann ich nur ausdauernd und zustimmend nicken. Dass die URL-Bezeichnungen selten vorhanden und von großer Heterogenität (und stark schwankendem Nutzwert) sind, ist zum Beispiel wirklich kein bibliothekarisches Ruhmesblatt. Ebenso ist die GND-Verlinkung noch deutlich ausbaubar. Geralds Abschlussfrage, welche Features in Discovery Systemen mit diesen Daten sinnvoll seien, ist jedoch (m.E.) anders zu formulieren. Denn Dienstleistungen zu bauen, nur weil die Daten es hergeben, ist nicht sinnvoll. 3) PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Ich schlage also vor, ein Discovery-Utopia zu formulieren. Dies sieht je nach lokaler Nutzerschaft nicht unbedingt überall gleich aus. Und wenn klar ist, welche Features gewünscht sind, sollten wir uns um die Realisierung kümmern. Sind die Daten schlecht? Dann sollten wir versuchen, sie zu verbessern.

TL;DR: Unsere Daten sind weder schicksalhaft gegeben, noch sind sie unveränderbar. Wir erstellen sie selbst, wir tauschen sie oder wir kaufen sie. Und wenn wir schlechte Daten haben – und die haben wir – sollten wir an deren Qualität arbeiten, um unseren NutzerInnen die Dienstleistungen zu bieten, die sie sich wünschen und die sie benötigen.

References   [ + ]

1. Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank!
2. 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.
3. PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Linked Data der DNB nun Linked Open Data

Aus einer E-Mail von Julia Hauser:

Wir freuen uns, mitteilen zu können, dass der bestehende Linked Data-Service der Deutschen Nationalbibliothek um Titeldaten erweitert wird.

2010 hat die Deutsche Nationalbibliothek damit begonnen, Normdaten als Linked Data zu veröffentlichen. Der bestehende Linked Data Service der DNB [1] wird nun um Titeldaten erweitert. In diesem Zuge wird auch die Nutzungslizenz für Linked Data auf “Creative Commons Zero” [2] umgestellt.

Jetzt wurde der überwiegende Teil der Titeldaten der DNB – es fehlen z. B. noch Musikalien und die Bestände des Deutschen Exilarchivs – sowie die fortlaufenden Sammelwerke (Zeitschriften-, Zeitungs- und Schriftenreihentitel der Zeitschriftendatenbank (ZDB)) umgesetzt. Die RDF/XML-Repräsentation des jeweiligen Datensatzes ist ab sofort im Portal der DNB [3] über einen entsprechenden Link verfügbar. Es handelt sich ausdrücklich um einen experimentellen Dienst, der laufend erweitert und verfeinert werden soll. Nähere Informationen zu Fragen der Modellierung und des Vorgehens finden sich in der aktualisierten Dokumentation [4].

Der einzig richtige und wichtige Schritt! Die dazugehörigen Links:

[1] https://wiki.dnb.de/display/LDS/
[2] http://creativecommons.org/publicdomain/zero/1.0/
[3] http://portal.dnb.de/
[4] http://files.d-nb.de/pdf/linked_data.pdf