Kuriositäten in Google Scholar

Dass das Zitationtracking in Google Scholar nicht besonders überzeugend ist, wurde hier schon 2013 angemerkt.

Auch ein in Scholar zu findendes Infobib-Posting hat falsche Zitationsangaben. In “Student Engagement and Library Use” (PDF) finde ich keinen Hinweis darauf.

Und das gilt bis heute. Aber es gibt in Google Scholar noch mehr zu entdecken. Anlässlich eines Tweets von Academica Obscura möchte ich ein paar Fundstücke auflisten.

Da gibt es zum Beispiel berühmte Autorinnen und Autoren (aus dem Tweet):

  • et al.
  • et al. (ein Namensvetter)
  • A. Author
  • Die produktive Wissenschaftsdynastie Example (besonders C. Example ist eine Koryphäe jeglichen Fachs! Wer legt ihm ein Profil an?) und den kümmerlichen Output der Last Names.

Es gibt eine sehr umfangreiche interdisziplinäre Zeitschrift namens “journal title” und unsere Examples haben sogar eine eigens nach ihnen benannte Zeitschrift. In dieser ist der höchst epochemachende Artikel 1, 2, 3, and 4 von C. Examples erschienen. Mit ‘s’, nicht verwandt oder verschwägert mit der Familie Example.

Auch Historiker werden erstaunliche Erkenntnisse zu Tage fördern! Wer hätte schon gedacht, was im ersten Jahrhundert n. Chr. alles veröffentlicht wurde? 108.000 Treffer!

Doch Google schaut nicht nur nach hinten, auch ein Blick in die Zukunft wird gewagt! Aktuell sind 323 Publikationen mit dem Erscheinungsjahr 2025 und aufwärts verzeichnet. 1) Kleine bibliothekarische Randbemerkung: Was dort indexiert ist, wird aus den zur Verfügung stehenden Metadaten (z.B. BibTeX) nicht klar. Eine Jahresangabe konnte ich bei Stichproben nicht finden. Spekulanten sollten sich jedoch nicht unnötig aufregen. Angaben über Sportergebnisse, Aktienkurse, die Immobilienmarkt- oder Bitcoin-Entwicklung konnte ich nicht finden.

References   [ + ]

1. Kleine bibliothekarische Randbemerkung: Was dort indexiert ist, wird aus den zur Verfügung stehenden Metadaten (z.B. BibTeX) nicht klar. Eine Jahresangabe konnte ich bei Stichproben nicht finden.

Wissenschaftliche Suchmaschine Microsoft Academic

Wie das Library Journal berichtet, geht Microsoft Academic generalüberholt an den Start. Zur Zeit ist noch keine dazugehörige Dokumentation zugänglich, aber:

  • Es gibt eine API.
  • Zitationen werden angezeigt.
  • Es ist hübscher als Google Scholar.

Und da sind wir beim wesentlichen Punkt: Google Scholar bekommt eventuell endlich einen Konkurrenten mit einer vergleichbaren Entwicklermacht im Rücken. Noch funktioniert an Microsoft Academic einiges nicht. Die IDs für Organisationen und AutorInnen sind voller Dubletten, Zitationen sind unvollständig, PDF-Links werden nicht immer als solche angezeigt und noch viele andere Kleinigkeiten mehr.

Schlimmer ist aber noch, dass die Suche an sich nicht funktioniert. Ich habe Titel und Autoren über Umwege gefunden, die ich über die Eingabe des Autorennamens oder des Titels nicht gefunden habe. Da ist noch der Wurm drin. Aber das Angebot ist noch nicht offiziell angekündigt, so wie ich das sehe.

Doch selbst wenn man mit diesen größeren Macken an den Start ginge: Eine Konkurrenz zu Google Scholar ist wünschenswert. Ich bin gespannt, wie sich Microsoft Academic entwickelt.

Zitationstracking in Google Scholar funktioniert nicht

Um die Tauglichkeit des Zitationstracking in Google Scholar zu überprüfen, bietet es sich an, Publikationen zu untersuchen, die man gut kennt. Also zum Beispiel die eigenen. Genau die habe ich mir vorgenommen und komme sehr schnell zu dem Urteil: das Zitationstracking bietet viel Serendipitität. Ich entdecke einiges, mit dem ich (zu Recht) nicht gerechnet habe, es taugt aber hinten und vorne nicht.

Schon ein kurzer Blick zeigt, dass da einiges im Argen ist. Eine Publikation von 2006 wurde schon 2004 zitiert? Nein, natürlich nicht. Und in “Gestión y preservación de la documentación electrónica. Material docente” (PDF) wurde auch kein Libreas-Artikel zitiert. Vor allem nicht der, an dem ich mitgewirkt habe.

Auch ein in Scholar zu findendes Infobib-Posting hat falsche Zitationsangaben. In “Student Engagement and Library Use” (PDF) finde ich keinen Hinweis darauf.

Abgesehen davon sind Zitationen verschwunden, die in Scholar schon mal angezeigt wurden, wenn mich meine Erinnerung nicht trügt.

Wenn sich schon bei der übersichtlichen Menge an Zitationen in meinen Publikationen so gravierende Fehler ergeben, spare ich mir eine eingehendere Analyse. Oder ist jemand zu anderen Schlüssen gekommen?

Bonusfrage: Ob sich das durch die angekündigte Zusammenarbeit zwischen Google und Thomson Reuters bessert?

Google Scholar: Inclusion Guidelines for Webmasters

Google Scholar hat “Inclusion Guidelines for Webmasters” veröffentlicht. Wer sein Repository ordentlich in Google Scholar gelistet haben möchte, hat sich an Googles “Standards” zu halten. Konkret heißt es:

If you’re a university repository, we recommend that you use the latest version of Eprints (eprints.org), Digital Commons (digitalcommons.bepress.com), or DSpace (dspace.org) software to host your papers. If you use a less common hosting product or service, or an older version of these, please read the rest of this document and make sure that your website meets our technical guidelines.

Liebe Bibliothekswesen, tragt bitte in alle künftigen Anforderungskataloge für Softwareanschaffungen unbedingt ein, ob die Software Google behagen würde!

Man könnte antworten:

If you’re a search engine giant and you want to monetarize the scientific work of other people, we recommend that you use the latest version of any open harvesting protocol, for example OAI-PMH to collect the metadata of our papers. If you try to establish your own rules, have fun with your customers who wonder about crappy metadata.

Kann doch nicht so schwer sein…

Kein IRrweg, aber dennoch Handlungsbedarf

Klaus Graf wirft einen Blick auf Google Scholar und zieht daraus Schlüsse über den IRrweg Institutionelle Repositorien. Er sucht nach “Science” und zählt die Volltextlinks:

Über 40 der 100 Treffer zum Thema bzw. Suchwort Science – sicher wichtige, weil vielzitierte Artikel – haben Volltextlinks, aber ich finde nur ein IR (igitur, NL) darunter und 3 arxiv-Links.

Wenn man einfach so nach Science sucht, hat man recht viele Treffer aus früheren Jahrzehnten. Da ich die Bedeutung der IRs eher anhand aktuellerer Publikationen prüfen würde, habe ich mal (willkürlich gewählt) auf Publikationen ab 2005 eingeschränkt.

Dabei ergibt sich schon ein etwas anderes Bild. Ich habe jetzt nicht alle verfügbaren Versionen abgeprüft, und bis zu 89 Versionen pro Dokument habe ich auf den vorderen Ergebnisseiten gesehen. Aber nun sind deutlich mehr Links auf Volltexte in IRs dabei, und alleine 3 Arxiv-Dokumente unter den ersten 10 Treffern.

Richtig bleibt aber, dass meist wohl der erste Volltext-Link angeklickt wird, der auch direkt auf der Ergebnisseite zu sehen ist. Dies ist oft nicht der IR-Link. Was ist jetzt der Schluss daraus? Sollen Repositories per SEO auf Google Scholar getrimmt werden?

Ja, das kann man machen. Man sollte es sogar. Nick Sheppard hat schon vor drei zwei Jahren die Notwendigkeit von SEO für IRs festgestellt.

It is crucial that both the Open Access full text research content of the repository and metadata records of citation material are fully indexed by Google (and other search engines); in the future it is also likely to be required for other Open Educational Resources (learning objects). However, site:http://repository-intralibrary.leedsmet.ac.uk/ currently returns just 4 results (in addition to the Login page itself) and it is a bit of a mystery how these 4 are actually being picked up when the majority of records are not.

Klickt man auf den Link, sieht man sofort, dass Sheppards Bemühungen von Erfolg gekrönt waren.

So nervig die SEO-Gemeinde mit ihrem recht hohen Schwarzschafanteil oft auch ist: Archivare und Bibliothekswesen müssen sich auch ein wenig um das Thema SEO kümmern. Und somit auch um so etwas wie Googles Panda, um Schema.org oder einfach darum, die Daten erstmal überhaupt ins Web zu bekommen. Stichwort Permalinks.

Google News im neuen Gewand

Google News hat ein neues Design verpasst bekommen. Die Google-Oberflächen verändern sich ständig ein kleines bißchen, und in den letzten Monaten und Jahren hat sich Google News immer mehr der Aufteilung einer klassischen Tageszeitung angenähert. Hinzugekommen sind auch viele Personalisierungsfunktionen.

Die automatisierte Einteilung von Artikeln in die verschiedenen Rubriken ist nicht gelungen. Im Panorama würde ich eine bunte Tüte mit Nachrichten über Schneeleoparden-Nachwuchs im Leipziger Zoo, Ballspiele der Mayas oder über die Tournee von Lena Meyer-Landrut erwarten. Google hält anderes für ähnlich unterhaltsam, unter anderem die Quartalszahlen der Allianz:

Das ist sicherlich diskutabel, letztlich aber nur eine Frage des Geschmacks. Anders verhält es sich mit der Sportrubrik, in der sich neben Schweinsteigers Verbalattacken auf die argentinische Nationalmannschaft auch die sportlichen Höchstleistungen des Hurrikans Alex (Zitat: mehr als 150 Kilometern pro Stunde) finden:

Da ist noch viel Raum für Verbesserungen. Da Google News sicherlich häufiger frequentiert wird als Google Scholar ist damit zu rechnen, dass diese Fehler auch tatsächlich behoben werden. Anders als bei Google Scholar.

[via ReadWriteWeb]

Blackwell Synergy von Google Scholar mißverstanden

Sebastian Wolf machte in Inetbib auf Risiken und Nebenwirkungen der automatischen Metadatengeneration durch Google aufmerksam.

Google Scholar kümmert sich auch nicht um die Original-Metadaten aus den Dokumentenservern, sondern indexiert Autorennamen etc. per automatischer Texterkennung. Die Metadaten von Dokumentenservern sind in der Tat manchmal erstaunlich schlecht, aber die automatische Autorenerkennung macht z.B. “F Password”, “D Surgery” und “I View” zu erfolgreichen und vielzitierten Autoren in Google Scholar.

Es gibt sogar einen Aufsatz, der von allen Dreien gemeinsam geschrieben wurde. Dort bestätigt sich auch, was sich schon bei einem Überfliegen der Ergebnislisten der anderen “Top-Autoren” aufdrängt: zwei von drei Versionen des Werkes werden mit korrekten Autorenangaben versehen, nur bei Blackwell Synergy schlägt die Interpretation stets fehl.

Allerdings sind Blackwell-Autoren nicht das einzige Opfer der fehlerhaften Autorenerkennung. Wenn man nach Reputationseffekt erhält man auch gleich als erstes ein Werk von “F Wirtschaftswissenschaften” angeboten.

Bleibt nur zu hoffen, dass F. Wirtschaftswissenschaften (bestimmt ein guter Freund von F. Informationswissenschaft, der wiederum sehr viel mit F. Potsdam veröffentlicht) in nicht-deutschsprachigen Ländern nicht tatsächlich ab und an als Autor angegeben wird.

Bibliotheken oder Google – Studie der ZBW

Im Auftrag der ZBW Kiel hat die Agentur HS&P eine noch unveröffentlichte Studie erstellt. Laut aktueller c’t ergibt sich dabei ein für Bibliotheken wenig schmeichelhaftes Bild. Gefragt wurde: Mit welchen Internetseiten suchen Sie nach wissenschaftlicher Literatur?

Die Reihenfolge der Antworten:

  1. Google
  2. Bibliothekskataloge
  3. Wikipedia
  4. Uni-Homepage
  5. Online-Dienste der Bibliotheken (?)
  6. KVK
  7. EZB
  8. Amazon
  9. ZDB
  10. Google Scholar
  11. Fachspezifische Portale

Eine spannende Frage ist nun die Bekanntheit der Virtuellen Fachbibliotheken, was auch auf dem Bibcamp eifrig diskutiert wurde. Markus Trapp hatte dazu noch erwähnt, dass er mittels Cibera-Blog erfolgreich zusätzliche Aufmerksamkeit auf seine ViFa lenken konnte.

Wie auch immer: Es ist zweifellos falsch, den zweiten Platz der OPACs als beruhigend zu empfinden. Also heißt es, von der “Konkurrenz” zu lernen und die besten Ideen schamlos zu kopieren.

BibTeX-Export und Bibsonomy-Links in ViBI

Der InfoWissBlog der Saarbrücker Informationswissenschaftler macht auf zwonullige Erweiterungen ihres OPACs aufmerksam: BibTeX-Export und Bibsonomy-Links in ViBI

ViBI generiert nun auch einzelne Datensätze im BibTeX-Format und bietet eine neue Möglichkeit, um Metadaten von Monografien einfach in das Social-Bookmarking-System Bibsonomy zu übernehmen. Dazu gibt es nun auch Links zur weiteren Recherche zu Google Books, WorldCat, Google Scholar, Wikipedia und Technorati. Außerdem wurde die Ausgabe mit zusätzlichen Metadaten angereichert, um die automatische Übernahme in das Literaturverwaltungsprogramm Zotero (Firefox-Plugin) zu erleichtern.

Beispielhaft verlinkt sei hier dieser Titel. Außerdem neu ist ein RSS-Feed für Neuerwerbungen.