#vufindhh: Zur Statistik und Datenqualität im GBV-Zentral

Das 2. Deutsche VuFind-Anwendertreffen [1] Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank! hat Gerald Steilen (VZG) mit einer statistischen Übersicht zum GBV-Zentral (Folien, PDF) eröffnet. Der Vortrag gehörte wohl zu den Meistdiskutierten des Anwendertreffens. Und sowohl ein paar Zahlen als auch die daraus geschlossenen Konsequenzen sind in der Tat diskussionswürdig.

Requests (S. 6)

Die “Requests” klingen sehr beeindruckend. Die Bibliothek der Hochschule Hannover landet in den GBV-Zentral-Charts auf Platz 4 mit satten 32,8 Mio. Requests vom 1. Januar bis zum 12. September 2013. Das ist in der Tat beeindruckend.

Ich vermute jedoch hauptsächlich Google hinter diesen Aktivitäten. Bis vor kurzem hatten wir (IIRC) etwa 7,5 Mio Titel in unserem VuFind-Ausschnitt des GBV-Zentral. Wenn Google diese Seite viermal harvested sind wir bei 30 Mio. Jetzt sind es (dank DOAJ) schon 9 Mio. Titel, womit man schnell bei über 30 Mio ist.

Die “echte Katalognutzung” ist nach unserer Statistik deutlich geringer: [2] 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.

  • 20397 Besuche
  • 24804 Seitenansichten, 19699 einmalige Seitenansichten
  • 144 max. Aktionen pro Besuch

Bitte diese Anmerkung nicht als Kritik an den Zahlen verstehen! Im Vortrag ging es um den GBV-Zentral, nicht um Katalognutzung! Und da ist natürlich auch ein Google-Anfrage ein Request wie jeder andere auch. Wie vermutlich auch Anfragen aus der Autocomplete-Funktion oder den “Ähnlichen Titeln” und so weiter. Ich habe dies hier nur aufgeführt, weil ich mehrfach angesprochen wurde, wie wir zu diesen enormen Katalognutzungszahlen kämen.

Datensätze mit Sprachcode (Seite 11)

Abdeckung in DOAJ wird mit 1% (9976 Titel) angegeben. BASE weist für die Quelle DOAJ Articles 630.000 Titel mit unbekannter Sprache aus. Allerdings auch 567.000 englische Artikel, 174.000 portugiesische und noch viele, viele mehr:

Da die Daten es vom DOAJ in BASE geschafft haben, müsste der Import überdacht werden. Die Daten geben mehr her, als im GBV-Zentral momentan realisiert wird.

Personenangaben (S. 8ff)

Die im Vortrag genannten Angaben zu den Verfassern sind ohne eingehende und differenzierte Betrachtung nicht zu interpretieren. Zuerst ein kurzer Blick auf OLC. Dieser Artikel zur Friedensforschung hat in OLC einen Verfasser. Im GBV-Zentral auch. Dieser Artikel über Effizienzsteigerung hat im OLC auch einen Verfasser. Im GBV-Zentral allerdings nicht. Der Verfasser ist dort nur weitere beteiligte Person.

In der Personenfacette:
OLC: 028A $dNicolaus$aSombart
GBV-Zentral: 100 |a Sombart, Nicolaus

Nicht in der Personenfacette:
OLC: 028C/01 $dMatthias$aMeier
GBV-Zentral: 700 |a Meier, Matthias

Das Ursache liegt hier eindeutig in den Daten und ist schon in der Vorbemerkung des thematischen Teils “unselbständige Werke” der GBV-Katalogisierungsrichtlinien angelegt:

Mit dem thematischen Teil „Unselbstständige Werke“ liegt erstmals im GBV eine verbindliche Regelung für die Katalogisierung unselbstständiger Werke vor. Das hier beschriebene Datenmodell gibt der im GBVKat bereits in erheblichem Umfang stattfindenden Katalogisierung unselbstständiger Werke eine einheitliche Grundlage. Für die Katalogisierung im GBVKat ist allein diese Richtlinie verbindlich. Für die beim GBV angebotenen Aufsatzdatenbanken wie z. B. „Online-Contents“ oder die „Internationale Bibliographie der Zeitschriftenliteratur (IBZ)“ gelten teilweise davon abweichende Datenmodelle.

Die Richtlinie ist also verbindlich und einheitlich, außer bei diesem und jenem. Und diese Ausnahmen sollen nun im GBV-Zentral als Ganzes dargestellt werden. Zwei offensichtliche Lösungsansätze:

  1. Änderung der Katalogisierungsrichtlinie und tatsächliche Vereinheitlichung auch für OLC & Co.
  2. Pragmatischer Umgang mit den vorhandenen und heterogenen Daten.

Der pragmatische Umgang könnte für die Discovery-Interfaces in einer “Personen”-Facette münden, die Erstautoren mit allen weiteren Autoren, Herausgebern etc. in einen Topf wirft.

Sonstiges

Zu vielen anderen Punkten kann ich nur ausdauernd und zustimmend nicken. Dass die URL-Bezeichnungen selten vorhanden und von großer Heterogenität (und stark schwankendem Nutzwert) sind, ist zum Beispiel wirklich kein bibliothekarisches Ruhmesblatt. Ebenso ist die GND-Verlinkung noch deutlich ausbaubar. Geralds Abschlussfrage, welche Features in Discovery Systemen mit diesen Daten sinnvoll seien, ist jedoch (m.E.) anders zu formulieren. Denn Dienstleistungen zu bauen, nur weil die Daten es hergeben, ist nicht sinnvoll. [3] PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

Ich schlage also vor, ein Discovery-Utopia zu formulieren. Dies sieht je nach lokaler Nutzerschaft nicht unbedingt überall gleich aus. Und wenn klar ist, welche Features gewünscht sind, sollten wir uns um die Realisierung kümmern. Sind die Daten schlecht? Dann sollten wir versuchen, sie zu verbessern.

TL;DR: Unsere Daten sind weder schicksalhaft gegeben, noch sind sie unveränderbar. Wir erstellen sie selbst, wir tauschen sie oder wir kaufen sie. Und wenn wir schlechte Daten haben – und die haben wir – sollten wir an deren Qualität arbeiten, um unseren NutzerInnen die Dienstleistungen zu bieten, die sie sich wünschen und die sie benötigen.

References

References
1 Hervorragend organisiert vom Team der TUB Hamburg-Harburg! Vielen Dank!
2 1. Januar bis zum 12. September 2013, um Suchmaschinen etc. bereinigt. Wer Javascript abstellt oder Ghostery benutzt und noch einige andere werden nicht verzeichnet.
3 PS: Was niemand – insbesondere nicht Gerald – bestreiten wird.

VuFind-Anwender-Treffen 2013 in Hamburg

Oliver Goldschmidt gab in Inetbib bekannt:

was die Leipziger im letzten Jahr erfolgreich begonnen haben soll eine Fortsetzung finden: die TUB Hamburg-Harburg plant in diesem Jahr, das zweite deutsche VuFind-Anwendertreffen zu veranstalten.

Ein Termin steht bereits fest: 16.-17.09.2013. Veranstaltungsort wird die TU Hamburg-Harburg sein. Dies ist zunächst ein Call for Papers; wer sich gerne auf der Veranstaltung mit einem VuFind-bezogenen Thema einbringen möchte, der wende sich bitte an mich.

Discovery-System und/oder Katalog?

Mir wurde die Erreichung der “nächste Stufe der Verblödung” für die Verwendung des Begriffes “Katalog” für eine VuFind-Installation unterstellt. Leider kann ich diese Auszeichnung nicht annehmen. Andere waren da viel schneller. Zum Beispiel die KollegInnen an folgenden Bibliotheken:

  • Hochschule für Musik und Theater Felix Mendelssohn Bartholdy [1] “Der Katalog der Hochschule für Musik und Theater ist online.”
  • TU Chemnitz [2] “Der neue Katalog der TU Chemnitz ist online”
  • Max Planck Institutes for Ecology and for Biogeochemistry [3] http://catalog.clib-jena.mpg.de/
  • UB Leipzig [4] “Der neue Katalog der Universitätsbibliothek Leipzig […]”
  • TUB Hamburg-Harburg [5] “Außerdem hat unser vufind-Katalog jetzt einen Namen: TUBfind.”
  • Bundesgerichtshof, Bundesverwaltungsgericht und Bundesverfassungsgericht [6] “Gemeinsamer Katalog des BGH, BVerwG und BVerfG”

In Hamburg wurde eine Abschlussarbeit mit dem Titel Bachelopac [7] “Der OPAC aus dem Baukasten : Realisierung eines Katalog 2.0 unter Einbeziehung der Community” geschrieben. Und das VuFind-Team selbst [8] “[…] the ability to browse the catalog weiß auch nicht, was es tut, ebenso wenig die VZG [9] “[…] der letztlich als produktiver Katalog mit vufind realisiert wurde.” .

Die ersten Verblöder sind wir also schon einmal nicht. Aber auch inhaltlich ist die Kritik an der Bezeichung m.E. verfehlt. Aus Löfflers “Einführung in die Katalogkunde”, S. 11: [10] Löffler, Karl; Fischer, Norbert (1956): Einführung in die Katalogkunde. 2. Aufl. Stuttgart: Hiersemann. (PDF)

Heute versteht jedermann, wenigstens in der Bücherwelt, unter Katalog in erster Linie ein nach bestimmten Gesichtspunkten geordnetes Verzeichnis von Schriften, und zwar von Schriften, die in einer bestimmten Sammlung, einer bestimmten Bibliothek, gelegentlich auch in einer bestimmten Gruppe von Bibliotheken vorhanden sind, also ein Bücherverzeichnis für eine einzelne Stätte oder jedenfalls von begrenztem Umfang.

Dass ein Katalog das Verzeichnis der Medien einer Institution ist, ist auch heute noch gängige Definition. Und da wir via VuFind nur Medien zugänglich machen, zu denen wir auch den Zugang bieten, halte ich die Bezeichnung “Katalog” durchaus für angemessen.

Auch wenn man anderer Meinung ist: Am wichtigsten bei der Benennung dieser Dienstleistung ist meines Erachtens, dass die Nutzer wissen, was sich dahinter verbirgt. Und beim Familienduell (“Wir haben 100 Leute befragt..”) wäre auf die Aufforderung, Suchinstrumente zu nennen, “Discovery-System” sicherlich nicht auf den vorderen Plätzen gelandet.

1 Jahr VuFind an der TU Hamburg-Harburg

Was zunächst als Aprilscherz für das Personal der TU-Bibliothek gedacht war, entwickelte sich sehr schnell zum Erfolgsmodell. TUBfind ist zwar noch nicht als Standardkatalog bei uns eingestellt, das liegt aber nicht primär an VuFind, sondern mehr an unseren (Alt)Daten. Weitere Informationen zum Stand der Entwicklung im TUB-Weblog und natürlich immer auch im TUBfind-Weblog.

[via Netbib]

Elektronische Dissertationen im Katalog (GBV)

Da ich zum wiederholten Male eine Nachfrage erhielt, wie denn die elektronischen Dissertationen in den Bibliothekskatalog der FH Hannover kommen:

  1. Kontaktaufnahme mit der VZG: “Wir (Bibliothek XY) würden gerne automatisiert elektronische Dissertationen in unseren Katalog übernehmen.”
  2. Antwort von der VZG.
  3. Übergabe der gewünschten Sachgruppen an die VZG.
  4. Die erste Lieferung erfolgt binnen kurzer Zeit.

Das war’s auch schon.

Prinzipiell steht das auch so ähnlich im GBV-Wiki. Was man konkret machen muss, um das für seinen Katalog umzusetzen, konnte ich dort leider nicht finden. Was es noch darüber hinaus für Angebote seitens der VZG gibt, ist leider auch nicht ohne weiteres zu entdecken. Wie es funktioniert, habe ich aus der TUB Hamburg-Harburg erfahren. An dieser Stelle besten Dank an die Cutting-Edge-Bibliothekswesen an der Elbe! ;o)

Hahn, Schulze: Katalogerweiterungen, Mashups und Elemente der "Bibliothek 2.0" in der Praxis

Im aktuellen Bibliotheksdienst (43 (2009), H. 1, S. 20-38), beschreiben Ulrich Hahn und Matthias Schulze, wie der Katalog der UB der Helmut-Schmidt-Universität mit allerlei Nützlichkeiten aufgebohrt wurde. Zuerst wären da:

Im Artikel wird gut deutlich, mit welch geringem Aufwand sich ein Mehrwert für Biblioteksnutzer schaffen lässt. Aber, ohne jemandem die Geschäftsgrundlage zu mißgönnen: Für Lagepläne im OPAC braucht man meines Erachtens keine Firma engagieren. Die Integration von verlinkten Standorten funktioniert zumindest in PICA-OPACs, wie man im Katalog der TUB HH sehen kann. Und wie man mit einfachen (und kostenlosen) Mittel Lagepläne erstellt, beschreibt Tobias Zeumer.

Auch bei Bibtip handelt es sich um eine kommerzielle Dienstleistung, die, obwohl es sich um ein DFG-Projekt zur dauerhaften Verbesserung der Informationsinfrastruktur wissenschaftlicher Bibliotheken in Deutschland. handelt, entgegen einer DFG-Empfehlung (PDF) nicht im Quelltext verfügbar ist.

Mit meinen Einwänden möchte ich diesen Dienste auf keinen Fall die Praxistauglichkeit absprechen.

Im Artikel geht’s weiter mit der Einbindung von Daten und Coverbildern über die API der Google-Buchsuche. Dies wird zu Recht als “klassisches Mashup” bezeichnet. Für die Zukunft werden unter anderem zusätzliche Erweiterungen des Katalogs und der Einsatz von Videocasts versprochen. Dem Schlußsatz kann ich mich nur anschließen: “Wir denken aber, dass unser Katalog durchaus ein klein wenig besser geworden ist.”