BASE: Weniger Quellen, höhere Volltextquote?

Klaus Graf kritisiert ein Interview von Richard Poynder mit Clifford Lynch  (PDF).

Poynder sagt, dass BASE keine Volltexte erfassen kann, wenn es keine Volltexte gibt. Nur ca. 60 % des Inhalts seien Volltexte. Poynder übersieht, dass BASE so gut wie keine Volltextsuche anbietet, das allermeiste sind OAI-PMH-Metadaten (auch von Volltexten). Dass BASE nicht nur Peer Review Beiträge bietet (Poynder denunziert die Suchmaschine, weil sie einen Blogpost von mir enthält) ist für mich absolut in Ordnung. Qualitäts-Fetischisten, die nur Peer Review Inhalte akzeptieren, können in der Geschichtswissenschaft schätzungsweise mehr als 99 % der Gesamtproduktion seit der Renaissance in die Tonne drücken. Retrodigitalisate und Dissertationen, die BASE erfreulicherweise nachweist, unterliegen/unterlagen keinem Peer Review.

Das soll eine Denunziation sein? Egal, kommen wir zum Inhaltlichen: Die Forderung nach Peer-Review-Kennzeichnung verkennt tatsächlich die Vielfalt der wissenschaftlichen Kulturen. Es ist gerade eine Stärke von BASE, auch Abschlussarbeiten etc. in großer Zahl nachzuweisen. Wo findet man sonst Bachelorarbeiten?

Poynders Kritik an der zu geringen Volltextquote in BASE teile ich allerdings, und das seit vielen Jahren. Etliche Quellen sollten einfach gestrichen werden. Was BASE vielleicht gut tun würde, ist ein radikaler Schnitt, wie ihn DOAJ gerade durchführt. Alle Quellen auf den Prüfstand. Alle anschreiben, ein Sigel ausschreiben. Kein kostenpflichtiges und sehr aufwändiges wie das DINI-Zertifikat. Eines, das deutlich weniger, aber sehr wichtige Kriterien abprüft. Als erstes: Gibt es ein OAI-Set, das nur OA-Volltexte enthält. Würde man diese dann zum “Kernbestand” des BASE-Index machen, hätte man tatsächlich eine OA-Suche, die zwar immer noch nur die Metadaten durchsucht und nicht die Volltexte, deren Treffer aber immerhin garantiert zum Volltext führen.

Es ist schon bezeichnend, dass die Facette “Open Access” nur noch 37 Mio Dokumente übrig lässt. Davon übrigens sehr viele aus Pubmed Central, DOAJ und CiteSeerX, Dubletten sind da wohl sehr wahrscheinlich. Beispielsuche in BASE nach The diploid genome sequence of an individual human: sieben Treffer für ein und denselben Artikel. Dubletten-Bereinigung ist nicht trivial, ist aber gerade bei Green OA ein sinnvolles Ziel. Das ist etwas, was Google Scholar deutlich besser macht. Dort gibt es nur einen Treffer – und 34 Orte, an denen man zum Text kommen soll.

BASE ist ein sehr gutes Werkzeug, das ich nahezu werktäglich einsetze. Aber es ist – und das ist keine Schande – tatsächlich noch Luft nach oben.

Ein Gedanke zu „BASE: Weniger Quellen, höhere Volltextquote?“

  1. Ein paar Anmerkungen vom BASE-Team dazu: Die 37 Mio. OA-Dokumente sind die, bei denen wir den Zugang durch Angaben auf Dokumentebene (“sinnvolle” Angaben im entsprechenden Metadatenfeld) oder auf Repository-Ebene (OA-Set oder alles OA) ermitteln konnten. Wird sind dabei, dies auch rückwirkend für ältere Quellen zu ergänzen. Viele Dokumente verfügen allerdings über unzureichende Metadaten und werden daher auch in Zukunft nicht mit einem Zugangsstatus ausgezeichnet werden können.

    Wir haben uns bewusst dafür entschieden, die Schwelle niedrig zu halten – BASE ist keine Fachdatenbank für OA-Volltexte, sondern eine Suchmaschine für wissenschaftliche Web-Dokumente. Einschränkungsmöglichkeiten vor oder nach der Suche erscheinen uns sinnvoller, als wenn viele Millionen relevante Dokumente schon im Vorfeld durch zu hohe Hürden gar nicht in den Index gelangen. Dabei wird schon einiges ausgefiltert (Quellen ohne Volltexte, Dokumente mit kaputten oder fehlenden Identifier, Dokumente mit fehlerhaften Zeichensätzen, technisch unzuverlässige Server). Geharvested haben wir schon über 150 Mio. Dokumente aus über 6000 Quellen. Und die Quellen, die drin sind werden auch regelmäßig geprüft, ob sie noch funktionieren.

    Das Thema “Dubletten” ist seit einiger Zeit auf unserer Agenda. Hier prüfen wir konkret, ob eine Zusammenführung anhand der DOI möglich ist. Eine Zusammenführung wie bei Google ist auf Grund der unterschiedlichen Herangehensweisen (Google indexiert Webseiten in einem Index, wir einzelne Quellen über OAI-PMH) nicht möglich, zudem verfügt Google über andere technische und personelle Möglichkeiten.

Kommentare sind geschlossen.