BASE: Weniger Quellen, höhere Volltextquote?

Klaus Graf kritisiert ein Interview von Richard Poynder mit Clifford Lynch  (PDF).

Poynder sagt, dass BASE keine Volltexte erfassen kann, wenn es keine Volltexte gibt. Nur ca. 60 % des Inhalts seien Volltexte. Poynder übersieht, dass BASE so gut wie keine Volltextsuche anbietet, das allermeiste sind OAI-PMH-Metadaten (auch von Volltexten). Dass BASE nicht nur Peer Review Beiträge bietet (Poynder denunziert die Suchmaschine, weil sie einen Blogpost von mir enthält) ist für mich absolut in Ordnung. Qualitäts-Fetischisten, die nur Peer Review Inhalte akzeptieren, können in der Geschichtswissenschaft schätzungsweise mehr als 99 % der Gesamtproduktion seit der Renaissance in die Tonne drücken. Retrodigitalisate und Dissertationen, die BASE erfreulicherweise nachweist, unterliegen/unterlagen keinem Peer Review.

Das soll eine Denunziation sein? Egal, kommen wir zum Inhaltlichen: Die Forderung nach Peer-Review-Kennzeichnung verkennt tatsächlich die Vielfalt der wissenschaftlichen Kulturen. Es ist gerade eine Stärke von BASE, auch Abschlussarbeiten etc. in großer Zahl nachzuweisen. Wo findet man sonst Bachelorarbeiten?

Poynders Kritik an der zu geringen Volltextquote in BASE teile ich allerdings, und das seit vielen Jahren. Etliche Quellen sollten einfach gestrichen werden. Was BASE vielleicht gut tun würde, ist ein radikaler Schnitt, wie ihn DOAJ gerade durchführt. Alle Quellen auf den Prüfstand. Alle anschreiben, ein Sigel ausschreiben. Kein kostenpflichtiges und sehr aufwändiges wie das DINI-Zertifikat. Eines, das deutlich weniger, aber sehr wichtige Kriterien abprüft. Als erstes: Gibt es ein OAI-Set, das nur OA-Volltexte enthält. Würde man diese dann zum “Kernbestand” des BASE-Index machen, hätte man tatsächlich eine OA-Suche, die zwar immer noch nur die Metadaten durchsucht und nicht die Volltexte, deren Treffer aber immerhin garantiert zum Volltext führen.

Es ist schon bezeichnend, dass die Facette “Open Access” nur noch 37 Mio Dokumente übrig lässt. Davon übrigens sehr viele aus Pubmed Central, DOAJ und CiteSeerX, Dubletten sind da wohl sehr wahrscheinlich. Beispielsuche in BASE nach The diploid genome sequence of an individual human: sieben Treffer für ein und denselben Artikel. Dubletten-Bereinigung ist nicht trivial, ist aber gerade bei Green OA ein sinnvolles Ziel. Das ist etwas, was Google Scholar deutlich besser macht. Dort gibt es nur einen Treffer – und 34 Orte, an denen man zum Text kommen soll.

BASE ist ein sehr gutes Werkzeug, das ich nahezu werktäglich einsetze. Aber es ist – und das ist keine Schande – tatsächlich noch Luft nach oben.

Freie Alternativen zur BASE-API gesucht

Das Base-HTTP-Interface (hier der “Interface Guide” (PDF)) sieht sehr vielversprechend aus, nur leider kann man darauf nicht zugreifen. Zumindest ich darf es nicht. Nun wäre die API in geradezu fantastischer Weise geeignet, um die Open-Access-Landschaft in verschiedenen geographischen oder fachlichen Bereichen zu untersuchen. Stattdessen muss man sich auch für einfachste Fragen selbst ums Harvesting bemühen.

Da die BASE-API unter Verschluss steht: was gibt es sonst noch?

Duckduckgo: !bang für Plan3t.info

Vor ein paar Tagen habe ich DuckDuckGo vorgeschlagen, ein !bang für Plan3t.info einzurichten. Kurze Zeit später erreichte mich folgende Mail:

!plan3t is now live on DuckDuckGo!

Nun kann man mit Hilfe des !bangs !plan3t aus Duckduckgo direkt in Plan3t.info suchen. Zum Beispiel führt folgende Eingabe “!plan3t bestandaufbau” …

… direkt zur Ergebnisliste in Plan3t.info:

Es gibt noch viele weitere !bangs, z.B.:

  • !latex und !tex
  • !wp (WordPress)
  • !wde (Wikipedia DE)
  • Academic: !academic !ads !arxiv !buej !cfp !citeul !collegeconfidential !dlss !duc !jstor !legal !mendeley !novoseek !scholar (!gsc) !searchworks !sep !ted !tsr
  • !pubmed !wolframalpha
  • !yacy

Und viele, viele andere. Base fehlt übrigens noch.

Ergebnisse: Wessen Inhalte dürfen ins Institutional Repository?

Vorbemerkung: Insgesamt wurden die Fragen 37x beantwortet. Es wurde kein aufwändiger Check betrieben, ob die Umfrage mehrfach ausgefüllt wurde. Die Ergebnisse sind ohnehin in keiner Weise repräsentativ. Sie können höchstens dazu dienen, Tendenzen zu erkennen.

Weitere Infos zur Umfrage: Wessen Inhalte dürfen ins Institutional Repository?

1. “IRs zerreissen das Werk von Wissenschaftlern, die die Institutionen wechseln.” Erläuterung: Gemeint ist, dass alle Publikationen eines Autors aus dem einen oder anderen Grund nicht in einem Institutional Repository (IR) gebündelt abrufbar sind. Ein Grund könnte sein, dass nur Schriften aufgenommen werden, die zur Zeit der Institutszugehörigkeit eines Autors entstanden sind.

Antwort Anteil (%) Anzahl
Ja, dies ist bei meinem IR der Fall. 37,8% 14
Nein, dies ist bei meinem IR nicht der Fall. 62,2% 23

2. “IRs nehmen manchmal ungern die Produktion vor dem Eintritt in die Institution.” Erläuterung: Manche IRs nehmen keine Publikationen an, die vor der Zugehörigkeit zur jeweiligen Institution entstanden sind.

Antwort Anteil (%) Anzahl
Ja, dies ist bei meinem IR der Fall. 27,0% 10
Nein, dies ist bei meinem IR nicht der Fall. 73,0% 27

3. “Nach dem Ausscheiden muss sich der Wissenschaftler eine andere OA-Bleibe suchen.” Erläuterung: Gemeint ist, dass Autoren nur Publikationen im IR veröffentlichen dürfen, solange sie der jeweiligen Institution angehören. Dies können sowohl ehemalige Studierende als auch ehemalige Mitarbeiter sein.

Antwort Anteil (%) Anzahl
Ja, dies ist bei meinem IR der Fall. 62,9% 22
Nein, dies ist bei meinem IR nicht der Fall. 40,0% 14

Von welcher Einrichtung wird das IR betrieben?

Typ der Einrichtung Anteil (%) Anzahl
Fachhochschule 13,5% 5
Universität 62,2% 23
Forschungseinrichtung 24,3% 9

Dazu 2 weitere Angaben, dass es sich genau genommen um eine UB handelt.

Anmerkungen und Kommentare (Freitextfeld):
Anmerkung 1:

Anfragen von Wissenschaftlern, die die Universität gewechselt haben, ob sie weiterhin auf unserem Server publizieren dürfen, kommen so gut wie nicht vor.

Anmerkung 2:

Die Richtlinien werden zur Zeit überarbeitet. An Alumni ist leider noch nicht gedacht.

Anmerkung 3:

Es wird nicht nur das Werk zerrissen, sondern es werden in einer wissenschaftlichen Vita unzählige Dubletten erstellt, die jedes mal einen neuen Persistent Identifier bekommen. Dies könnte Probleme bei statistischen Erhebungen (Citation index) oder bei Zitierungen (dem Autor oder anderen Wissenschaftlern ist nicht klar, welchen der PI sie zitieren sollen).

Anmerkung 4:

Ein Paar Kommentare zu Grafs Mail, die ansonsten ein perfekter Diskussionsanstoss ist: – “Suchwerkzeuge wie BASE sind weitgehend unbekannt”: richtig, dafür Google und Google scholar – “Auch wenn eine Arbeit mit der Institution eindeutig in Verbindung steht (…) wird sie nicht aufgenommen”: Richtig, sonst wäre es ja kein IR. Einen Vorwurf sollte man aber nicht ZORA machen – auf deren Webseite kann die Arbeit sonst wie verlinkt werden – sondern der HTW Chur, die als I&D-Fachhochschule schon lange das gute Beispiel zeigen sollte. – “IRs parzellieren die Wissenschaft”: Mag sein, sie hat sich aber schon häufig genug selber parzelliert. Und für etwas gibt es FRs (Fachspezifische Repositories) und klassifikatorische Daten. – “ZORA kürzt den Vornamen ab, obwohl viele Disziplinen dagegen sind”: Wo kann man denn offizielle und einheitliche Stellungnahmen von ganzen wissenschaftlichen Disziplinen nachlesen, um zu wissen, wo wer gegen was ist? Wieviele Disziplinen pflegen mehrere Zitationsstile, obwohl die Gemeinschaft nur wenige hundert oder tausend Forschenden zählt?

Anmerkung 5:

Die These von Graf beschreibt kein wirkliches Problem. Der Vorteil des Webs und von Open Access ist doch gerade, dass die Publikationen eines Autors nicht wie in einer Bibliothek vollständig im gleichen Regal stehen müssen. Für das Suchen nutzt man sowieso besser BASE in Bielefeld oder internationale Fachrepositorien (oder Google oder Verbundkataloge wie Worldcat). IRs bieten zwar Suchfunktionen (und die sollen auch gut sein), aber nur für begrenzte Fragestellungen. Für das Finden ist es eigentlich egal, auf welchem Server die Publikationen liegen, Hauptsache er ist zuverlässig erreichbar und verfügt über standardisierte Schnittstellen.

Anmerkung 6:

Das institutionelle Repository soll auch die Basis für eine Universitätsbibliographie bilden. Der Zusammenhang mit der Universität ist gewollt und gewünscht. Die Primärdaten müssen ordentlich langzeitarchiviert werden, und auch bei der Institution vorliegen. Die Metadaten dagegen können auch anderweitig verwendet werden, das Zerreißen des Werks eines Autors ist also kein schlagkräftiges Argument.

Anmerkung 7:

Ich teile die Kritik, dass Publ. von Autoren zerrissen werden. Hier werden noch Lösungsmöglichkeiten gefunden werden müssen. Evtl. über ein anderes Portal (REsearchGate?) wo der Wissenschaftler die Publ. seines Werdeganges, aus unterschiedl. Repositories automatisiert (via Schnittstellen) in nutzerfreundlicher Bedienung zusammenführen kann. Derzeit ist meine Einschätzung: Ein institutionelles Repository hat den Fokus auf Publikationen der eigenen Einrichtung und soll hauptsächlich den Output der eigenen Einrichtung nach aussen widerspiegeln. Das ist schon ein sehr grosser Aufwand. Unser Rep orientiert sich an der Organisationsstruktur der Universität. Die Publ. werden den Fakultäten/Einrichtungen zugeordnet. Die Wissenschaftler der Uni können ihre Publikationen selbst einstellen, dadurch kommen natürlich auch Publ. aus früheren Arbeitsstätten in das Rep. Die Services sind daher auf die aktiven Mitarbeiter unserer Institution konzentriert. Dennoch wäre denkbar, dass man evtl eine Lösung für Interessierte entwickelt, die unser REP als zentralen Sammelpool nutzen wollen. Derzeit haben wir leider nicht die Kapazitäten, um hier etwas zu entwickeln. Ich behalte diesen interessanten Aspekt aber weiter im Hinterkopf.

Anmerkung 8:

Grundsätzlich ist die Beschränkung in den Leitlinien unseres IRs sowie des integrierten Hochschulverlages auf Mitarbeiter der Einrichtung bzw. der Mitarbeiter assoziierter Einrichtungen vernünftig, da wir für externe Veröffentlichungen grundsätzlich nicht die Verantwortung übernehmen können und wollen. Zumal wir auch argumentieren: die inhaltliche Qualität der Publikationen bildet das Niveau unserer Einrichtung ab, d. h. wir veröffentlichen – mit gewissen Einschränkungen – auch alles, was ein Mitarbeiter veröffentlichen möchte. Letztlich legen wir institutionelle Mitgliedschaft aber weit aus, um die von Herrn Graf beschriebenen Hürden möglichst niedrig zu halten. Hin und wieder erweist sich unsere Policy jedoch auch als Innovationsbremse, wenn wir z. B. Kooperationsanfragen lokaler, aber externer Einrichtungen ablehnen müssen oder diese aufgrund administrativer Verzögerungen scheitern (z. B. durch die notwendige, aber nicht zeitgerechte Zustimmung des Bibliotheksbeirats), weil die institutionelle Zugehörigkeit nicht belegt werden kann und wir so attraktive Publikationsprojekte verlieren.

Anmerkung 9:

ich wäre mir auch nicht sicher, ob IR Einträge von Alumni von den Erlaubnissen der Verlage (s. Romeo) gedeckt wären.

Anmerkung 10:

Wollen Repositorien Publikationslisten-Features anbieten, ist es nötig alte Publikationen aufzunehmen. Export Möglichkeiten erlauben es wechselnden Autoren ihre Publikationen bzw. Metadaten auf ein neues Repositorium zu migrieren. Für den Forschenden ist dies sicher nicht ideal und mit Mehraufwand verbunden. Hier kann vielleicht die Intiative ORCID Abhilfe schaffen.

Anmerkung 11:

Die Zugehörigkeit zur Hochschule wird nicht explizit geprüft. Eine solche wird einfach vorausgesetzt. Ich verstehe nicht, warum mehrere Veröffentlichungsorte ein Problem darstellen sollten – in Zeiten von BASE etc…

DDC in BASE

BASE setzt auf ein automatisches Verfahren zur Dokumentenklassifikation nach der Dewey-Dezimalklassifikation (DDC):

Es sei nicht verschwiegen, dass das automatische Klassifikationsverfahren nicht perfekt ist, da es auf der statistischen Analyse der Dokumenttexte basiert. Da die Wissenschaftssprache sehr komplex ist und sich zudem ständig verändert, kann es auch zu Fehlklassifikationen kommen.

In der Klassifikation stöbern kann man über die VuFind-eigene Browsing-Funktion.

BASE steigt auf VuFind um

Im BASE-Blog wird der Umstieg von BASE von FAST auf Lucene/Solr mit der Oberfläche VuFind beschrieben.

Die vollständige Ablösung des FAST-Systems ist für die nächsten Monate geplant, ebenso die Umlenkung der BASE API auf den neuen Index. Der Index unter Lucene/Solr wird vorerst in unregelmäßigen Abständen aktualisiert werden.

Die Oberfläche ist im BASE Lab schon testbereit. Einiges funktioniert noch nicht. Zum Beispiel wird die Suchsortierung immer auf “Relevanz” zurückgesetzt, wenn man die Suchergebnisse eingrenzen möchte. Aber für eine Beta-Version sieht das schon sehr ordentlich aus. Lucene/Solr entwickeln sich mehr und mehr zum Standard in der deutschsprachigen Bibliothekslandschaft.

Geschäftstüchtige British Library

Vorgeschichte: Vor einiger Zeit haben zwei Infobiber einen Artikel zur Vermittlung von Informationskompetenz veröffentlicht, der nach einer gewissen Frist vom Verlag für Open-Access-Repositorien freigegeben wurde. Dies haben wir dann auch gerne wahrgenommen. Nun ist es so, dass damit für Dritte der Weg frei ist, um mit einem solchen Artikel den einen oder anderen Euro zu verdienen. Wie z.B. bei Emerald (GBP £13.00 plus handling charge of GBP £1.50 and VAT where applicable), bei Amazon (erfreulich günstig für nur $5,95) oder aber in der Premiumversion bei Research & Markets für sensationelle 34 Euro!

Nun ja, das kann man mehr oder weniger gut finden, vielleicht sogar unverschämt. Aber es ist alles rechtens, kein Einspruch möglich oder angebracht. Was ich jedoch ein wenig schräg finde, ist das Angebot der British Library, den Artikel via British Library Direct gegen Entgelt zu beziehen:

To buy the full text of this article you pay: £5.00 copyright fee + service charge (from £7.65) + VAT, if applicable

Copyright fee? Aha!

Fazit: Sollte jemand nach Publikationen suchen, ist British Library Direct für die Recherche vielleicht geeignet. Hat man das Gesuchte jedoch gefunden, sollte man lieber nochmal gegenprüfen (z.B. via BASE oder OAIster), ob man das Gewünschte nicht auch kostenfrei bekommen kann.