xISSN und Google Refine: Infos über Zeitschriften sammeln

Für Vertragsverhandlungen wollte ich herausfinden, bei welchen Verlagen die Autoren unserer Hochschule Zeitschriftenartikel veröffentlicht haben. In einem Citaviprojekt habe ich eine Stichprobe von ca. 1000 Artikeln, die ich verwenden wollte. Das Problem: In Citavi sind die Zeitschriftenverlage nicht ordentlich zu hinterlegen. Die Lösung: wir haben die ISSN, und mit xISSN gibt es eine ganz brauchbare Schnittstelle, um mehr Daten zu einer ISSN zu bekommen.

Das Vorgehen:
Die Artikeldaten wurden inklusive ISSN in eine CSV-Tabelle exportiert. Diese CSV-Tabelle habe ich in Google (oder Open) Refine importiert. Dort ging es dann weiter. Zunächst habe ich die Spalte ISSN auf jeweils eine ISSN reduziert. In einigen Fällen waren mehrere ISSN (online und offline) im Feld.

Transform auf der Spalte ISSN mit dem Kommando slice(value, -9) nimmt die jeweils 9 letzten Zeichen und wirft den Rest weg. Aus 1234-5678, 9876-5432 wird also 9876-5432.

ISSN-Analyse in Google Refine

Danach “Add column by fetching urls on column ISSN” mit dem Kommando “http://xissn.worldcat.org/webservices/xid/issn/”+value+”?method=getHistory&format=json”, mit Anführungszeichen! Das dauert dann ganz schön. In meinem Fall hat es ca. zwei bis drei Stunden gedauert für etwa 1000 Titel.

Danach erhalte ich eine Spalte, in der die Daten zu einer Zeitschrift im JSON-Format enthalten sind. Daraus wiederum extrahiere ich eine neue Spalte (“Add column based on this column”) mit value.parseJson().group[0].list[0].publisher. Fertig.

Naja, es muss dann noch ein bißchen aufgeräumt werden. Allein Springer fand ich in 5 verschiedenen Schreibweisen, ebenso die American Physical Society. Aber prinzipiell war es das.

Pressemitteilung zu Wikidata

Quelle: Pressemitteilungen/PM 3 12 Wikidata, CC: BY-SA

Die Zukunft der Wikipedia

Wikidata wird das erste neue Wikimedia-Projekt seit 2006

Vom 30. März bis 1. April findet in Berlin die jährliche Wikimedia Conference mit Teilnehmern aus 40 Ländern statt. Zeitgleich startet Wikimedia Deutschland mit Wikidata ein völlig neues Wikimedia-Projekt. Wikidata wird eine offene Datenbank für das Wissen der Welt werden, an der jeder mitarbeiten kann. Das erste Ziel des Projekts ist es, die mehr als 280 Sprachversionen von Wikipedia mit einer einzigen gemeinsamen Datenquelle auszustatten. Damit können weltweit die Daten der Artikel in allen Sprachen der freien Enzyklopädie ergänzt und zentral gepflegt werden. Aber auch außerhalb von Wikipedia können die Daten verwendet werden, zum Beispiel in Blogs oder auf Webseiten. Das Prinzip einer gemeinsamen Datenquelle soll die Qualität und Übereinstimmung von Wikipedia-Artikeln verbessern. Durch Wikidata werden mehr Informationen in kleineren Sprachversionen von Wikipedia verfügbar gemacht. Gleichzeitig wird es für Zehntausende freiwillige Wikipedia-Autoren erheblich einfacher, Daten in der Enzyklopädie aktuell zu halten.

Der Vorstand von Wikimedia Deutschland, Pavel Richter, erklärt : “Wir betreten Neuland. Wikidata ist das größte technische Projekt, das jemals eine der 40 Länderorganisationen der Wikimedia-Bewegung in Angriff genommen hat. Wikimedia Deutschland widmet sich mit Begeisterung der Aufgabe, durch Wikidata die Datenverwaltung der größten Wissenssammlung der Menschheit deutlich zu verbessern.”

Neben den Wikimedia-Projekten werden auch zahlreiche externe Anwendungen von den Daten profitieren. Mit Wikidata können Daten vernetzt und annotiert werden, was beispielsweise für wissenschaftliche und öffentliche Daten von großer Bedeutung ist. Die Wikidata-Inhalte werden unter einer freien Creative Commons-Lizenz veröffentlicht.

Das Projekt wird mittels einer Großspende von 1,3 Millionen Euro finanziert, die zur Hälfte vom Allen Institute for Artificial Intelligence ([ai]²) stammt. Das Institut wurde 2010 von Paul G. Allen, Mitgründer von Microsoft, ins Leben gerufen und unterstützt langfristige Forschungsarbeiten, die den Fortschritt auf dem Gebiet der Künstlichen Intelligenz beschleunigen sollen.

“Wikidata ist eine einfache wie kluge Idee und ein bedeutender nächster Schritt in der Entwicklung von Wikipedia”, sagt Dr. Mark Greaves, Vizepräsident des Allen Institute for Artifical Intelligence. “Es wird die Art und Weise verändern, wie enzyklopädische Daten veröffentlicht, zugänglich gemacht und von Menschen weltweit verwendet werden können. Wikidata baut auf semantischen Technologien auf, die wir seit Langem unterstützen. Das Projekt wird den Takt wissenschaftlicher Entdeckungen beschleunigen und der Welt eine außergewöhnliche neue Datenquelle bereitstellen.”

Ein Viertel der Entwicklungskosten von Wikidata ist durch eine Spende der Gordon and Betty Moore Foundation gesichert. Die Vision der Gordon and Betty Moore Foundation ist es, messbare, nachhaltige und weitreichende Erfolge in Umweltschutz und Wissenschaft zu erzielen.

“Wikidata ist für die Forschung bedeutend”, sagt Chris Mentzel vom wissenschaftlichen Programm der Gordon and Betty Moore Foundation. “Das Projekt wird ein wichtiges Datenangebot für Wikipedia sein. Zusätzlich können beispielsweise Wissenschaftler die einfach bedienbare Wikidata-Software herunterladen. Wikidata ermöglicht ihnen, ständig wachsende und komplexe wissenschaftliche Datenmengen zu verwalten und daraus wertvolle Schlüsse zu ziehen.”

Google, Inc. stellt ein weiteres Viertel der Wikidata-Finanzierung bereit. Chris DiBona, Leiter des Bereichs Open Source, sagt: “Googles Auftrag ist es, die Informationen der Welt überall zugänglich und sinnvoll verwendbar zu machen. Darum freuen wir uns, am Projekt Wikidata teilzuhaben. Wir hoffen, dass damit erhebliche Mengen strukturierter Daten der Allgemeinheit zur Verfügung gestellt werden können.”

Wikidata wird in drei Phasen entwickelt. Der Abschluss der ersten Phase erfolgt voraussichtlich bis August 2012. Darin werden Links zwischen verschiedenen Sprachversionen von Wikipedia zentral an einer Stelle gesammelt. In der zweiten Phase können Nutzer Daten verwenden und neue hinzufügen. Die Ergebnisse der Auswertung werden hierfür im Dezember 2012 veröffentlicht. Die dritte und letzte Phase wird die automatische Erstellung von Listen und Grafiken erlauben.

Wikimedia Deutschland führt die drei Phasen aus und übergibt anschließend den Betrieb und die Wartung von Wikidata an die Wikimedia Foundation. Geplanter Übergabetermin ist März 2013. Das Team von acht Software-Entwicklern wird von Dr. Denny Vrandečić geleitet. Er wechselte vom Karlsruher Institut für Technologie zu Wikimedia Deutschland. Zusammen mit Dr. Markus Krötzsch von der University of Oxford hat er das Semantic-MediaWiki-Projekt gegründet. Der Projektvorschlag für Wikidata wurde mit finanzieller Unterstützung des EU-Projekts RENDER entwickelt, an dem Wikimedia Deutschland als einer der Anwendungspartner ebenfalls beteiligt ist.


Links

OpenBib mit Cool URIs und vielem mehr

OpenBib wurde technisch ordentlich durchgeschüttelt. Unter anderem soll OpenBib besser für das Semantic Web vorbereitet werden. Dazu kommen verschiedene Technologien wie Trennung der HTTP-URI’s von den verschiedenen Daten-Repräsentationen wie HTML,JSON,RDF,RSS oder RESTful WebServices zum Einsatz.

Durch diese Kombination wird erreicht, dass das gesamte Recherche-Portal selbst zu einem WebService wird und sich mit allen seinen Funktionen und Informationen in beliebige andere Dienste integrieren lässt. Zusätzlich besteht weiterhin der bereits etablierte Mechanismus, beliebige Informationen über (neue) Konnektoren mit definierten Standardschnittstellen (s.o.) bereitzustellen.

Die Version 2.4alpha setzt unter anderem auch auf Cool URIs. Damit kommt auch OpenBib endlich im WWW an, sind Permalinks doch eine Grundlage für die Verlinkung von Inhalten. Das Thema Permalinks hatten wir hier ja schon zur Genüge.

Auch von der konkreten OpenBib-Entwicklung abgesehen ist Oliver Flimms Posting sehr lesenswert und (nebenbei bemerkt) ein sehr gutes Beispiel für die unkomplizierte Kommunikation konkreter Projektergebnisse an die Fachgemeinde.