#vufindhh: Zur Statistik und Datenqualität im GBV-Zentral

Das 2. Deutsche VuFind-Anwendertreffen 1) Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank! hat Gerald Steilen (VZG) mit einer statistischen Übersicht zum GBV-Zentral (Folien, PDF) eröffnet. Der Vortrag gehörte wohl zu den Meistdiskutierten des Anwendertreffens. Und sowohl ein paar Zahlen als auch die daraus geschlossenen Konsequenzen sind in der Tat diskussionswürdig.

Requests (S. 6)

Die “Requests” klingen sehr beeindruckend. Die Bibliothek der Hochschule Hannover landet in den GBV-Zentral-Charts auf Platz 4 mit satten 32,8 Mio. Requests vom 1. Januar bis zum 12. September 2013. Das ist in der Tat beeindruckend.

Ich vermute jedoch hauptsächlich Google hinter diesen Aktivitäten. Bis vor kurzem hatten wir (IIRC) etwa 7,5 Mio Titel in unserem VuFind-Ausschnitt des GBV-Zentral. Wenn Google diese Seite viermal harvested sind wir bei 30 Mio. Jetzt sind es (dank DOAJ) schon 9 Mio. Titel, womit man schnell bei über 30 Mio ist.

Die “echte Katalognutzung” ist nach unserer Statistik deutlich geringer: 2) 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.

  • 20397 Besuche
  • 24804 Seitenansichten, 19699 einmalige Seitenansichten
  • 144 max. Aktionen pro Besuch

Bitte diese Anmerkung nicht als Kritik an den Zahlen verstehen! Im Vortrag ging es um den GBV-Zentral, nicht um Katalognutzung! Und da ist natürlich auch ein Google-Anfrage ein Request wie jeder andere auch. Wie vermutlich auch Anfragen aus der Autocomplete-Funktion oder den “Ähnlichen Titeln” und so weiter. Ich habe dies hier nur aufgeführt, weil ich mehrfach angesprochen wurde, wie wir zu diesen enormen Katalognutzungszahlen kämen.

Datensätze mit Sprachcode (Seite 11)

Abdeckung in DOAJ wird mit 1% (9976 Titel) angegeben. BASE weist für die Quelle DOAJ Articles 630.000 Titel mit unbekannter Sprache aus. Allerdings auch 567.000 englische Artikel, 174.000 portugiesische und noch viele, viele mehr:

Da die Daten es vom DOAJ in BASE geschafft haben, müsste der Import überdacht werden. Die Daten geben mehr her, als im GBV-Zentral momentan realisiert wird.

Personenangaben (S. 8ff)

Die im Vortrag genannten Angaben zu den Verfassern sind ohne eingehende und differenzierte Betrachtung nicht zu interpretieren. Zuerst ein kurzer Blick auf OLC. Dieser Artikel zur Friedensforschung hat in OLC einen Verfasser. Im GBV-Zentral auch. Dieser Artikel über Effizienzsteigerung hat im OLC auch einen Verfasser. Im GBV-Zentral allerdings nicht. Der Verfasser ist dort nur weitere beteiligte Person.

In der Personenfacette:
OLC: 028A $dNicolaus$aSombart
GBV-Zentral: 100 |a Sombart, Nicolaus

Nicht in der Personenfacette:
OLC: 028C/01 $dMatthias$aMeier
GBV-Zentral: 700 |a Meier, Matthias

Das Ursache liegt hier eindeutig in den Daten und ist schon in der Vorbemerkung des thematischen Teils “unselbständige Werke” der GBV-Katalogisierungsrichtlinien angelegt:

Mit dem thematischen Teil „Unselbstständige Werke“ liegt erstmals im GBV eine verbindliche Regelung für die Katalogisierung unselbstständiger Werke vor. Das hier beschriebene Datenmodell gibt der im GBVKat bereits in erheblichem Umfang stattfindenden Katalogisierung unselbstständiger Werke eine einheitliche Grundlage. Für die Katalogisierung im GBVKat ist allein diese Richtlinie verbindlich. Für die beim GBV angebotenen Aufsatzdatenbanken wie z. B. „Online-Contents“ oder die „Internationale Bibliographie der Zeitschriftenliteratur (IBZ)“ gelten teilweise davon abweichende Datenmodelle.

Die Richtlinie ist also verbindlich und einheitlich, außer bei diesem und jenem. Und diese Ausnahmen sollen nun im GBV-Zentral als Ganzes dargestellt werden. Zwei offensichtliche Lösungsansätze:

  1. Änderung der Katalogisierungsrichtlinie und tatsächliche Vereinheitlichung auch für OLC & Co.
  2. Pragmatischer Umgang mit den vorhandenen und heterogenen Daten.

Der pragmatische Umgang könnte für die Discovery-Interfaces in einer “Personen”-Facette münden, die Erstautoren mit allen weiteren Autoren, Herausgebern etc. in einen Topf wirft.

Sonstiges

Zu vielen anderen Punkten kann ich nur ausdauernd und zustimmend nicken. Dass die URL-Bezeichnungen selten vorhanden und von großer Heterogenität (und stark schwankendem Nutzwert) sind, ist zum Beispiel wirklich kein bibliothekarisches Ruhmesblatt. Ebenso ist die GND-Verlinkung noch deutlich ausbaubar. Geralds Abschlussfrage, welche Features in Discovery Systemen mit diesen Daten sinnvoll seien, ist jedoch (m.E.) anders zu formulieren. Denn Dienstleistungen zu bauen, nur weil die Daten es hergeben, ist nicht sinnvoll. 3) PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Ich schlage also vor, ein Discovery-Utopia zu formulieren. Dies sieht je nach lokaler Nutzerschaft nicht unbedingt überall gleich aus. Und wenn klar ist, welche Features gewünscht sind, sollten wir uns um die Realisierung kümmern. Sind die Daten schlecht? Dann sollten wir versuchen, sie zu verbessern.

TL;DR: Unsere Daten sind weder schicksalhaft gegeben, noch sind sie unveränderbar. Wir erstellen sie selbst, wir tauschen sie oder wir kaufen sie. Und wenn wir schlechte Daten haben – und die haben wir – sollten wir an deren Qualität arbeiten, um unseren NutzerInnen die Dienstleistungen zu bieten, die sie sich wünschen und die sie benötigen.

References   [ + ]

1. Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank!
2. 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.
3. PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

2 thoughts on “#vufindhh: Zur Statistik und Datenqualität im GBV-Zentral”

  1. Hallo Christian,

    für die Verwendung der Kataegorie “weitere beteiligte Personen” scheint es Gründe in der Erzeugung der OLC-Aufsatzkatalogisate in einem teilautomatisierten Prozess durch das Scannen von Inhaltsverzeichnissen zu geben. Dass heißt aber meiner Meinung nach nur, dass Anwendungen, die diese Daten nutzen wollen, in der Suche und in der Darstellung dieses Feld behandeln müssen, als handele es sich um ein Autorenfeld.

    Viele Grüße,
    Jens

  2. Hallo Jens,

    richtig, genau das wollte ich mit der “pragmatischen Lösung” andeuten. Sorry, ich habe das wohl etwas kryptisch beschrieben.

Comments are closed.