#vufindhh: Zur Statistik und Datenqualität im GBV-Zentral

Das 2. Deutsche VuFind-Anwendertreffen [1] Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank! hat Gerald Steilen (VZG) mit einer statistischen Übersicht zum GBV-Zentral (Folien, PDF) eröffnet. Der Vortrag gehörte wohl zu den Meistdiskutierten des Anwendertreffens. Und sowohl ein paar Zahlen als auch die daraus geschlossenen Konsequenzen sind in der Tat diskussionswürdig.

Requests (S. 6)

Die “Requests” klingen sehr beeindruckend. Die Bibliothek der Hochschule Hannover landet in den GBV-Zentral-Charts auf Platz 4 mit satten 32,8 Mio. Requests vom 1. Januar bis zum 12. September 2013. Das ist in der Tat beeindruckend.

Ich vermute jedoch hauptsächlich Google hinter diesen Aktivitäten. Bis vor kurzem hatten wir (IIRC) etwa 7,5 Mio Titel in unserem VuFind-Ausschnitt des GBV-Zentral. Wenn Google diese Seite viermal harvested sind wir bei 30 Mio. Jetzt sind es (dank DOAJ) schon 9 Mio. Titel, womit man schnell bei über 30 Mio ist.

Die “echte Katalognutzung” ist nach unserer Statistik deutlich geringer: [2] 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.

  • 20397 Besuche
  • 24804 Seitenansichten, 19699 einmalige Seitenansichten
  • 144 max. Aktionen pro Besuch

Bitte diese Anmerkung nicht als Kritik an den Zahlen verstehen! Im Vortrag ging es um den GBV-Zentral, nicht um Katalognutzung! Und da ist natürlich auch ein Google-Anfrage ein Request wie jeder andere auch. Wie vermutlich auch Anfragen aus der Autocomplete-Funktion oder den “Ähnlichen Titeln” und so weiter. Ich habe dies hier nur aufgeführt, weil ich mehrfach angesprochen wurde, wie wir zu diesen enormen Katalognutzungszahlen kämen.

Datensätze mit Sprachcode (Seite 11)

Abdeckung in DOAJ wird mit 1% (9976 Titel) angegeben. BASE weist für die Quelle DOAJ Articles 630.000 Titel mit unbekannter Sprache aus. Allerdings auch 567.000 englische Artikel, 174.000 portugiesische und noch viele, viele mehr:

Da die Daten es vom DOAJ in BASE geschafft haben, müsste der Import überdacht werden. Die Daten geben mehr her, als im GBV-Zentral momentan realisiert wird.

Personenangaben (S. 8ff)

Die im Vortrag genannten Angaben zu den Verfassern sind ohne eingehende und differenzierte Betrachtung nicht zu interpretieren. Zuerst ein kurzer Blick auf OLC. Dieser Artikel zur Friedensforschung hat in OLC einen Verfasser. Im GBV-Zentral auch. Dieser Artikel über Effizienzsteigerung hat im OLC auch einen Verfasser. Im GBV-Zentral allerdings nicht. Der Verfasser ist dort nur weitere beteiligte Person.

In der Personenfacette:
OLC: 028A $dNicolaus$aSombart
GBV-Zentral: 100 |a Sombart, Nicolaus

Nicht in der Personenfacette:
OLC: 028C/01 $dMatthias$aMeier
GBV-Zentral: 700 |a Meier, Matthias

Das Ursache liegt hier eindeutig in den Daten und ist schon in der Vorbemerkung des thematischen Teils “unselbständige Werke” der GBV-Katalogisierungsrichtlinien angelegt:

Mit dem thematischen Teil „Unselbstständige Werke“ liegt erstmals im GBV eine verbindliche Regelung für die Katalogisierung unselbstständiger Werke vor. Das hier beschriebene Datenmodell gibt der im GBVKat bereits in erheblichem Umfang stattfindenden Katalogisierung unselbstständiger Werke eine einheitliche Grundlage. Für die Katalogisierung im GBVKat ist allein diese Richtlinie verbindlich. Für die beim GBV angebotenen Aufsatzdatenbanken wie z. B. „Online-Contents“ oder die „Internationale Bibliographie der Zeitschriftenliteratur (IBZ)“ gelten teilweise davon abweichende Datenmodelle.

Die Richtlinie ist also verbindlich und einheitlich, außer bei diesem und jenem. Und diese Ausnahmen sollen nun im GBV-Zentral als Ganzes dargestellt werden. Zwei offensichtliche Lösungsansätze:

  1. Änderung der Katalogisierungsrichtlinie und tatsächliche Vereinheitlichung auch für OLC & Co.
  2. Pragmatischer Umgang mit den vorhandenen und heterogenen Daten.

Der pragmatische Umgang könnte für die Discovery-Interfaces in einer “Personen”-Facette münden, die Erstautoren mit allen weiteren Autoren, Herausgebern etc. in einen Topf wirft.

Sonstiges

Zu vielen anderen Punkten kann ich nur ausdauernd und zustimmend nicken. Dass die URL-Bezeichnungen selten vorhanden und von großer Heterogenität (und stark schwankendem Nutzwert) sind, ist zum Beispiel wirklich kein bibliothekarisches Ruhmesblatt. Ebenso ist die GND-Verlinkung noch deutlich ausbaubar. Geralds Abschlussfrage, welche Features in Discovery Systemen mit diesen Daten sinnvoll seien, ist jedoch (m.E.) anders zu formulieren. Denn Dienstleistungen zu bauen, nur weil die Daten es hergeben, ist nicht sinnvoll. [3] PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Ich schlage also vor, ein Discovery-Utopia zu formulieren. Dies sieht je nach lokaler Nutzerschaft nicht unbedingt überall gleich aus. Und wenn klar ist, welche Features gewünscht sind, sollten wir uns um die Realisierung kümmern. Sind die Daten schlecht? Dann sollten wir versuchen, sie zu verbessern.

TL;DR: Unsere Daten sind weder schicksalhaft gegeben, noch sind sie unveränderbar. Wir erstellen sie selbst, wir tauschen sie oder wir kaufen sie. Und wenn wir schlechte Daten haben – und die haben wir – sollten wir an deren Qualität arbeiten, um unseren NutzerInnen die Dienstleistungen zu bieten, die sie sich wünschen und die sie benötigen.

References

References
1 Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank!
2 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.
3 PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Neue gemeinfreie Werke 2010

Telepolis berichtet über Autoren, deren Werke seit 1. Januar 2010 gemeinfrei sind. Zum Beispiel die Werke Siegmund Freuds. Auch über die Wikipedia (auch über Umwege) kann man einige Autoren ausfindig machen, über WBIS (über Nationallizenz verfügbar, dies ist nur ein schnell zusammenklamüsertes Beispiel) noch viel mehr.

Wirklich effektiv wäre dagegen eine Möglichkeit, über ein API die PND nach “Sterbejahr 1939” abzufragen und mit den so gewonnenen PPNs direkt verschiedene Kataloge abzufragen. Was aber leider noch nicht möglich ist.

Das SLUB-Personen-Wiki

Die SLUB Dresden hat ein Personen-Wiki eingerichtet. Dort werden Daten zu Personen gesammelt und aufbereitet, die einen Bezug zu Beständen und Sammlungsaufträgen der SLUB aufweisen.

Ein prominenteres Beispiel ist sicherlich Johann Sebastian Bach, über die Vielfalt der Personen kann man sich leicht ein Bild verschaffen, wenn man die Funktion “Zufälliger Artikel” nutzt.

Positiv ist zu vermerken, dass es sich tatsächlich um ein offenes Wiki handelt. Es kann also jeder ohne Registrierung Änderungen vornehmen. Ich gehe davon aus, dass dies demnächst zwecks Spam-Vermeidung mit einer Registrierung verbunden sein wird. Aber solange jeder Änderungen vornehmen kann, ist daran nichts auszusetzen. Ein anderer Punkt ist das Impressum. Dort heißt es:

Das Layout der Homepage, die verwendeten Grafiken sowie die sonstigen Inhalte sind urheberrechtlich geschützt.

Das Layout der Homepage entspricht bis auf ein eingefügtes Banner haargenau Monobook, dem Standard-Theme für Mediawiki. Im Impressum steht zwar nicht, dass die SLUB die Rechte am Layout der SLUB hat. Genauso wenig wie dort steht, dass sie die Rechte an den anderen Inhalten des Wikis hat. Aber es wird meines Erachtens impliziert. Abgesehen davon wäre eine konkrete Nennung, wer denn nun Urheber ist, ganz nett. Schon, um dann mal nachzuhaken zu können, ob nicht eventuell eine freie Lizensierung (z.B. CC-BY-SA) möglich wäre. Dann könnten die Daten auch tatsächlich im Ganzen genutzt werden.