xISSN und Google Refine: Infos über Zeitschriften sammeln

Für Vertragsverhandlungen wollte ich herausfinden, bei welchen Verlagen die Autoren unserer Hochschule Zeitschriftenartikel veröffentlicht haben. In einem Citaviprojekt habe ich eine Stichprobe von ca. 1000 Artikeln, die ich verwenden wollte. Das Problem: In Citavi sind die Zeitschriftenverlage nicht ordentlich zu hinterlegen. Die Lösung: wir haben die ISSN, und mit xISSN gibt es eine ganz brauchbare Schnittstelle, um mehr Daten zu einer ISSN zu bekommen.

Das Vorgehen:
Die Artikeldaten wurden inklusive ISSN in eine CSV-Tabelle exportiert. Diese CSV-Tabelle habe ich in Google (oder Open) Refine importiert. Dort ging es dann weiter. Zunächst habe ich die Spalte ISSN auf jeweils eine ISSN reduziert. In einigen Fällen waren mehrere ISSN (online und offline) im Feld.

Transform auf der Spalte ISSN mit dem Kommando slice(value, -9) nimmt die jeweils 9 letzten Zeichen und wirft den Rest weg. Aus 1234-5678, 9876-5432 wird also 9876-5432.

ISSN-Analyse in Google Refine

Danach “Add column by fetching urls on column ISSN” mit dem Kommando “http://xissn.worldcat.org/webservices/xid/issn/”+value+”?method=getHistory&format=json”, mit Anführungszeichen! Das dauert dann ganz schön. In meinem Fall hat es ca. zwei bis drei Stunden gedauert für etwa 1000 Titel.

Danach erhalte ich eine Spalte, in der die Daten zu einer Zeitschrift im JSON-Format enthalten sind. Daraus wiederum extrahiere ich eine neue Spalte (“Add column based on this column”) mit value.parseJson().group[0].list[0].publisher. Fertig.

Naja, es muss dann noch ein bißchen aufgeräumt werden. Allein Springer fand ich in 5 verschiedenen Schreibweisen, ebenso die American Physical Society. Aber prinzipiell war es das.