xISSN und Google Refine: Infos über Zeitschriften sammeln

Für Vertragsverhandlungen wollte ich herausfinden, bei welchen Verlagen die Autoren unserer Hochschule Zeitschriftenartikel veröffentlicht haben. In einem Citaviprojekt habe ich eine Stichprobe von ca. 1000 Artikeln, die ich verwenden wollte. Das Problem: In Citavi sind die Zeitschriftenverlage nicht ordentlich zu hinterlegen. Die Lösung: wir haben die ISSN, und mit xISSN gibt es eine ganz brauchbare Schnittstelle, um mehr Daten zu einer ISSN zu bekommen.

Das Vorgehen:
Die Artikeldaten wurden inklusive ISSN in eine CSV-Tabelle exportiert. Diese CSV-Tabelle habe ich in Google (oder Open) Refine importiert. Dort ging es dann weiter. Zunächst habe ich die Spalte ISSN auf jeweils eine ISSN reduziert. In einigen Fällen waren mehrere ISSN (online und offline) im Feld.

Transform auf der Spalte ISSN mit dem Kommando slice(value, -9) nimmt die jeweils 9 letzten Zeichen und wirft den Rest weg. Aus 1234-5678, 9876-5432 wird also 9876-5432.

ISSN-Analyse in Google Refine

Danach “Add column by fetching urls on column ISSN” mit dem Kommando “http://xissn.worldcat.org/webservices/xid/issn/”+value+”?method=getHistory&format=json”, mit Anführungszeichen! Das dauert dann ganz schön. In meinem Fall hat es ca. zwei bis drei Stunden gedauert für etwa 1000 Titel.

Danach erhalte ich eine Spalte, in der die Daten zu einer Zeitschrift im JSON-Format enthalten sind. Daraus wiederum extrahiere ich eine neue Spalte (“Add column based on this column”) mit value.parseJson().group[0].list[0].publisher. Fertig.

Naja, es muss dann noch ein bißchen aufgeräumt werden. Allein Springer fand ich in 5 verschiedenen Schreibweisen, ebenso die American Physical Society. Aber prinzipiell war es das.

Ergebnisse: Wessen Inhalte dürfen ins Institutional Repository?

Vorbemerkung: Insgesamt wurden die Fragen 37x beantwortet. Es wurde kein aufwändiger Check betrieben, ob die Umfrage mehrfach ausgefüllt wurde. Die Ergebnisse sind ohnehin in keiner Weise repräsentativ. Sie können höchstens dazu dienen, Tendenzen zu erkennen.

Weitere Infos zur Umfrage: Wessen Inhalte dürfen ins Institutional Repository?

1. “IRs zerreissen das Werk von Wissenschaftlern, die die Institutionen wechseln.” Erläuterung: Gemeint ist, dass alle Publikationen eines Autors aus dem einen oder anderen Grund nicht in einem Institutional Repository (IR) gebündelt abrufbar sind. Ein Grund könnte sein, dass nur Schriften aufgenommen werden, die zur Zeit der Institutszugehörigkeit eines Autors entstanden sind.

Antwort Anteil (%) Anzahl
Ja, dies ist bei meinem IR der Fall. 37,8% 14
Nein, dies ist bei meinem IR nicht der Fall. 62,2% 23

2. “IRs nehmen manchmal ungern die Produktion vor dem Eintritt in die Institution.” Erläuterung: Manche IRs nehmen keine Publikationen an, die vor der Zugehörigkeit zur jeweiligen Institution entstanden sind.

Antwort Anteil (%) Anzahl
Ja, dies ist bei meinem IR der Fall. 27,0% 10
Nein, dies ist bei meinem IR nicht der Fall. 73,0% 27

3. “Nach dem Ausscheiden muss sich der Wissenschaftler eine andere OA-Bleibe suchen.” Erläuterung: Gemeint ist, dass Autoren nur Publikationen im IR veröffentlichen dürfen, solange sie der jeweiligen Institution angehören. Dies können sowohl ehemalige Studierende als auch ehemalige Mitarbeiter sein.

Antwort Anteil (%) Anzahl
Ja, dies ist bei meinem IR der Fall. 62,9% 22
Nein, dies ist bei meinem IR nicht der Fall. 40,0% 14

Von welcher Einrichtung wird das IR betrieben?

Typ der Einrichtung Anteil (%) Anzahl
Fachhochschule 13,5% 5
Universität 62,2% 23
Forschungseinrichtung 24,3% 9

Dazu 2 weitere Angaben, dass es sich genau genommen um eine UB handelt.

Anmerkungen und Kommentare (Freitextfeld):
Anmerkung 1:

Anfragen von Wissenschaftlern, die die Universität gewechselt haben, ob sie weiterhin auf unserem Server publizieren dürfen, kommen so gut wie nicht vor.

Anmerkung 2:

Die Richtlinien werden zur Zeit überarbeitet. An Alumni ist leider noch nicht gedacht.

Anmerkung 3:

Es wird nicht nur das Werk zerrissen, sondern es werden in einer wissenschaftlichen Vita unzählige Dubletten erstellt, die jedes mal einen neuen Persistent Identifier bekommen. Dies könnte Probleme bei statistischen Erhebungen (Citation index) oder bei Zitierungen (dem Autor oder anderen Wissenschaftlern ist nicht klar, welchen der PI sie zitieren sollen).

Anmerkung 4:

Ein Paar Kommentare zu Grafs Mail, die ansonsten ein perfekter Diskussionsanstoss ist: – “Suchwerkzeuge wie BASE sind weitgehend unbekannt”: richtig, dafür Google und Google scholar – “Auch wenn eine Arbeit mit der Institution eindeutig in Verbindung steht (…) wird sie nicht aufgenommen”: Richtig, sonst wäre es ja kein IR. Einen Vorwurf sollte man aber nicht ZORA machen – auf deren Webseite kann die Arbeit sonst wie verlinkt werden – sondern der HTW Chur, die als I&D-Fachhochschule schon lange das gute Beispiel zeigen sollte. – “IRs parzellieren die Wissenschaft”: Mag sein, sie hat sich aber schon häufig genug selber parzelliert. Und für etwas gibt es FRs (Fachspezifische Repositories) und klassifikatorische Daten. – “ZORA kürzt den Vornamen ab, obwohl viele Disziplinen dagegen sind”: Wo kann man denn offizielle und einheitliche Stellungnahmen von ganzen wissenschaftlichen Disziplinen nachlesen, um zu wissen, wo wer gegen was ist? Wieviele Disziplinen pflegen mehrere Zitationsstile, obwohl die Gemeinschaft nur wenige hundert oder tausend Forschenden zählt?

Anmerkung 5:

Die These von Graf beschreibt kein wirkliches Problem. Der Vorteil des Webs und von Open Access ist doch gerade, dass die Publikationen eines Autors nicht wie in einer Bibliothek vollständig im gleichen Regal stehen müssen. Für das Suchen nutzt man sowieso besser BASE in Bielefeld oder internationale Fachrepositorien (oder Google oder Verbundkataloge wie Worldcat). IRs bieten zwar Suchfunktionen (und die sollen auch gut sein), aber nur für begrenzte Fragestellungen. Für das Finden ist es eigentlich egal, auf welchem Server die Publikationen liegen, Hauptsache er ist zuverlässig erreichbar und verfügt über standardisierte Schnittstellen.

Anmerkung 6:

Das institutionelle Repository soll auch die Basis für eine Universitätsbibliographie bilden. Der Zusammenhang mit der Universität ist gewollt und gewünscht. Die Primärdaten müssen ordentlich langzeitarchiviert werden, und auch bei der Institution vorliegen. Die Metadaten dagegen können auch anderweitig verwendet werden, das Zerreißen des Werks eines Autors ist also kein schlagkräftiges Argument.

Anmerkung 7:

Ich teile die Kritik, dass Publ. von Autoren zerrissen werden. Hier werden noch Lösungsmöglichkeiten gefunden werden müssen. Evtl. über ein anderes Portal (REsearchGate?) wo der Wissenschaftler die Publ. seines Werdeganges, aus unterschiedl. Repositories automatisiert (via Schnittstellen) in nutzerfreundlicher Bedienung zusammenführen kann. Derzeit ist meine Einschätzung: Ein institutionelles Repository hat den Fokus auf Publikationen der eigenen Einrichtung und soll hauptsächlich den Output der eigenen Einrichtung nach aussen widerspiegeln. Das ist schon ein sehr grosser Aufwand. Unser Rep orientiert sich an der Organisationsstruktur der Universität. Die Publ. werden den Fakultäten/Einrichtungen zugeordnet. Die Wissenschaftler der Uni können ihre Publikationen selbst einstellen, dadurch kommen natürlich auch Publ. aus früheren Arbeitsstätten in das Rep. Die Services sind daher auf die aktiven Mitarbeiter unserer Institution konzentriert. Dennoch wäre denkbar, dass man evtl eine Lösung für Interessierte entwickelt, die unser REP als zentralen Sammelpool nutzen wollen. Derzeit haben wir leider nicht die Kapazitäten, um hier etwas zu entwickeln. Ich behalte diesen interessanten Aspekt aber weiter im Hinterkopf.

Anmerkung 8:

Grundsätzlich ist die Beschränkung in den Leitlinien unseres IRs sowie des integrierten Hochschulverlages auf Mitarbeiter der Einrichtung bzw. der Mitarbeiter assoziierter Einrichtungen vernünftig, da wir für externe Veröffentlichungen grundsätzlich nicht die Verantwortung übernehmen können und wollen. Zumal wir auch argumentieren: die inhaltliche Qualität der Publikationen bildet das Niveau unserer Einrichtung ab, d. h. wir veröffentlichen – mit gewissen Einschränkungen – auch alles, was ein Mitarbeiter veröffentlichen möchte. Letztlich legen wir institutionelle Mitgliedschaft aber weit aus, um die von Herrn Graf beschriebenen Hürden möglichst niedrig zu halten. Hin und wieder erweist sich unsere Policy jedoch auch als Innovationsbremse, wenn wir z. B. Kooperationsanfragen lokaler, aber externer Einrichtungen ablehnen müssen oder diese aufgrund administrativer Verzögerungen scheitern (z. B. durch die notwendige, aber nicht zeitgerechte Zustimmung des Bibliotheksbeirats), weil die institutionelle Zugehörigkeit nicht belegt werden kann und wir so attraktive Publikationsprojekte verlieren.

Anmerkung 9:

ich wäre mir auch nicht sicher, ob IR Einträge von Alumni von den Erlaubnissen der Verlage (s. Romeo) gedeckt wären.

Anmerkung 10:

Wollen Repositorien Publikationslisten-Features anbieten, ist es nötig alte Publikationen aufzunehmen. Export Möglichkeiten erlauben es wechselnden Autoren ihre Publikationen bzw. Metadaten auf ein neues Repositorium zu migrieren. Für den Forschenden ist dies sicher nicht ideal und mit Mehraufwand verbunden. Hier kann vielleicht die Intiative ORCID Abhilfe schaffen.

Anmerkung 11:

Die Zugehörigkeit zur Hochschule wird nicht explizit geprüft. Eine solche wird einfach vorausgesetzt. Ich verstehe nicht, warum mehrere Veröffentlichungsorte ein Problem darstellen sollten – in Zeiten von BASE etc…

Drei neue Empfehlungen des Wissenschaftsrats

Auf drei Empfehlungen des Wissenschaftsrats macht Wisspub aufmerksam.

Adrian Pohl analysiert eine Aussage aus den “Übergreifenden Empfehlungen”, die sich mit zwei verschiedenen Ansätzen der Metadatenbereitstellung beschäftigt: Linked Open Data vs. WorldCat, oder: Eine Alternative, die keine ist.

Am 3. Februar soll darüber hinaus eine Empfehlung zur “Zukunft des bibliothekarischen Verbundsystems in Deutschland” veröffentlicht werden.

Inetbib 2008: Firmenvorträge

Ute Rusnak vom FIZ Karlsruhe stellt eSciDoc und KnowEsis vor.

eSciDoc: Alle Schritte des wissenschaftlichen Forschungsprozesses sollen in einem System abgebildet werden. Ideenfindung, Datensammlung, Auswertung, Ergebnisdokumentation, Publikation (institutional repository). Softwarebasis ist Fedora Repository und Lucene.

KnowEsis ist eSciDoc-Anbieter. Partner sind u.a. VZG und MPG.

Norbert Weinberger (OCLC Deutschland) berichtet über Social-Network-Services im Worldcat. Blog an die Benutzer, RSS, Widgets etc.

Neues Konzept: identitätsübersichten (Autoren und virtuelle Personen). In der Folie verlinkt er eine solche Identität.

2.0-Tools scheinen für verstärkte Nutzung zu sorgen.

Abschließend stellt er die Worldcat-API vor und verweist auf die auch hier schon erwähnte Studie Sharing, Privacy und Trust in our Networked World.

WorldCat Registry

OCLC hat Ende Februar ein neues Produkt präsentiert: WorldCat Registry. Es handelt sich dabei um ein Verzeichnis für Bibliotheken und Bibliotheksverbünde, das als Quelle für verschiedene “Schlüsseldaten” einer Bibliothek dienen soll, beispielsweise für “institutional identity, services, relationships, contacts”. Als mögliche Vorteile für Bibliotheken sind genannt:

  • Create and manage a profile that centralizes and automates information sharing with vendors and others—you don’t maintain multiple identities, and their data is always up-to-date
  • Get greater Internet visibility for your collection and services through syndication of your data over a variety of Web services including WorldCat.org

Mehr Informationen gibt es in den zugehörigen FAQ.

[Via Library Journal]