xISSN und Google Refine: Infos über Zeitschriften sammeln

Für Vertragsverhandlungen wollte ich herausfinden, bei welchen Verlagen die Autoren unserer Hochschule Zeitschriftenartikel veröffentlicht haben. In einem Citaviprojekt habe ich eine Stichprobe von ca. 1000 Artikeln, die ich verwenden wollte. Das Problem: In Citavi sind die Zeitschriftenverlage nicht ordentlich zu hinterlegen. Die Lösung: wir haben die ISSN, und mit xISSN gibt es eine ganz brauchbare Schnittstelle, um mehr Daten zu einer ISSN zu bekommen.

Das Vorgehen:
Die Artikeldaten wurden inklusive ISSN in eine CSV-Tabelle exportiert. Diese CSV-Tabelle habe ich in Google (oder Open) Refine importiert. Dort ging es dann weiter. Zunächst habe ich die Spalte ISSN auf jeweils eine ISSN reduziert. In einigen Fällen waren mehrere ISSN (online und offline) im Feld.

Transform auf der Spalte ISSN mit dem Kommando slice(value, -9) nimmt die jeweils 9 letzten Zeichen und wirft den Rest weg. Aus 1234-5678, 9876-5432 wird also 9876-5432.

ISSN-Analyse in Google Refine

Danach “Add column by fetching urls on column ISSN” mit dem Kommando “http://xissn.worldcat.org/webservices/xid/issn/”+value+”?method=getHistory&format=json”, mit Anführungszeichen! Das dauert dann ganz schön. In meinem Fall hat es ca. zwei bis drei Stunden gedauert für etwa 1000 Titel.

Danach erhalte ich eine Spalte, in der die Daten zu einer Zeitschrift im JSON-Format enthalten sind. Daraus wiederum extrahiere ich eine neue Spalte (“Add column based on this column”) mit value.parseJson().group[0].list[0].publisher. Fertig.

Naja, es muss dann noch ein bißchen aufgeräumt werden. Allein Springer fand ich in 5 verschiedenen Schreibweisen, ebenso die American Physical Society. Aber prinzipiell war es das.

MOOC zu “Sprachtechnologie in den Digital Humanities”

Martin Volk, Noah Bubenhofer und Simon Clematide bieten über Coursera einen MOOC zu “Sprachtechnologie in den Digital Humanities” an:

Sie möchten wissen, was genau die Digitalisierung von Texten beinhaltet? Sie haben sich schon immer gefragt, wie Texte in einem Korpus optimal durchsuchbar gemacht werden? Sie wundern sich, wie Texte mit linguistischen Informationen angereichert werden können?

Und das auf Deutsch!

Citavi 5 bleibt voll und ganz bei Microsoft

Mit Citavi 5 ist gerade eine neue Version eines der – zumindest meiner Meinung nach – komfortabelsten Literaturverwaltungsprogramme erschienen. Es gibt viele neue Features. Unter anderem auch Citavi for DB-Server.

“For DB-Server” heißt im Großen und Ganzen, dass zur Speicherung der Daten keine lokale SQLite-Datenbank genutzt wird, sondern ein SQL-Server. Da jubelt das Bibliothekarsherz, denn so etwas ist echt praktisch für die Teamarbeit für dislozierte Kontributoren. Aber auch, um via Citavi die Publikationen einer Institutionsbibliographie zu pflegen. Also ab in die Dokumentation, und was finde ich da:

Wenn Sie sich für Citavi for DBServer entscheiden, speichern Sie die Citavi Projekte auf einem SQL-Server. Die Citavi-Projekte werden vom Datenbankbesitzer angelegt. Der Datenbankbesitzer kann dieses Recht an Nutzer übertragen.

Toll, genau das benötige ich! Dann gehe ich einen Abschnitt weiter und muss Folgendes lesen:

Ein Fenster (vergittert)

Ein Fenster (vergittert). Von: Nyttend.

Wenn Sie Citavi for DBSever nicht mit dem SQL Server Ihrer Firma verwenden können oder noch kein SQL Server verfügbar ist, nutzen Sie Microsoft® SQL Server® 2014 Express. (Andere SQL-Server wie MySQL werden aktuell nicht unterstützt.)

MySQL und PostGreSQL sind vermutlich an fast jeder Hochschule zigfach vorhanden, ebenso das dazugehörige Knowhow. MySQL ist auch bei fast jedem Billig-Webhosting dabei. Im Citavi-Forum wird das ähnlich gesehen. Dort steht als Antwort eines Citavi-Mitarbeites:

Sie wissen vermutlich, dass es mit MS SQL Server Express eine kostenlose Version gibt. Obwohl das Datenbanksystem also so proprietär wie Citavi ist, entstehen für die Nutzer keine Kosten über die Citavi-Lizenzen hinaus.

Richtig. Aber finde ich in meiner Institution jemanden, der sich damit auskennt und mir mal flugs den Gefallen tut, eine solche Datenbank einzurichten? Mein Fazit: Schade, da hat Citavi eine große Chance vertan, das Fenster zur Nicht-Windows-Welt zumindest für “Spezialanwender” wie mich ein kleines bißchen zu öffnen.

Zoosphere: Datenaggregator mit CC0-Insekten-Bildern

Zoosphere ist ein Portal, in dem Sequenzen digitalisierter Insektenpräparate aus dem Bestand des durch das Museums für Naturkunde Berlin unter CC0-Lizenz(!) veröffentlicht werden, zum Beispiel von Chrysis comparata, einer recht hübschen Wespe.

Chrysis Comparata

Chrysis Comparata, CC0

Die Seiten zu den einzelnen Digitalisaten sind nette Beispiele für die Aggegration von Fremddaten in Kombination mit eigenen Daten und Medien. So sind dort zum Beispiel Daten zu den Vorkommen der Insekten aus der mir bislang unbekannten Global Biodiversity Information Facility eingebunden. Vereinzelt sind auch “References” zu finden, zum Beispiel bei der Goldschildfliege (Phasia aurigera).

Die Ziele des Zoosphere-Projekts:

  • An international repository and web hub for high resolution image sequences of biological specimen
  • Delivering content to various end user devices, such as dekstop computers, mobile devices and web browsers in general
  • Create a tool for scientists, especially taxonomists, to speed up and improve their research
  • Prevent physical object transfer via regular mail
  • Reduce travel costs and efforts related to local object inspection
  • Digital preservation of biological collection objects, which are subject to natural decay
  • Increasing the visibility and accesibility of biological collection objects
  • Making objects available to both: general public and scientists

Das Projekt befindet sich nach Eigenangabe noch in einer sehr frühen Phase. Was jetzt zu sehen ist, ist jedoch schon recht vielversprechend. Besonders die CC0-Lizenzierung muss positiv hervorgehoben werden, wo andere Museen doch lieber auf nervige Wasserzeichen und mit sachlichen Gründen nicht zu erklärenden Nutzungseinschränkungen arbeiten.

Mankos wie die nicht funktionierende(?) Favoritenfunktion werden sicherlich noch behoben. Von diesem Projekt wird man jedoch sicherlich noch mehr hören, hoffentlich auch in Form einer Kooperation mit Wikimedia/Wikidata und einer daraus resultierenden Bot-generierten Anlage von Artikeln zu bisher in der deutschsprachigen Wikipedia fehlenden Insekten.

Kostenfreies SPARQL-Webinar

Webinar Date: Wednesday, 13 May 2015, 10:00am-11:15am EDT (UTC 14:00 – World Clock: http://bit.ly/Webinar-Ethan_Gruber)

Abstract: This webinar provides an introduction to SPARQL, a query language for RDF. Users will gain hands on experience crafting queries, starting simply, but evolving in complexity. These queries will focus on coinage data in the SPARQL endpoint hosted by http://nomisma.org: numismatic concepts defined in a SKOS-based thesaurus and physical specimens from three major museum collections (American Numismatic Society, British Museum, and Münzkabinett of the Staatliche Museen zu Berlin) linked to these concepts. Results generated from these queries in the form of CSV may be imported directly into Google Fusion Tables for immediate visualization in the form of charts and maps.

Nach hiesiger Zeit: Mittwoch, 13. Mai 2015 um 16 Uhr. Mehr Infos gibt es auf Dublincore.org.

CSU, CDU und SPD beschließen anlasslose Massenüberwachung

Anderswo wurde schon alles gesagt. Die Argumente sind längst mehrfach ausgetauscht, es ist ja nicht einmal das erste Mal unter Angela Merkel, dass die Vorratsdatenspeicherung beschlossen wurde.

Die Wut über Heiko Maas, dem offenbar Loyalität zu Sigmar Gabriel wichtiger ist als seine Überzeugung und der Schutz der Grundrechte, ist natürlich berechtigt. Gewollt haben das Gesetz vorwiegend die Unionsparteien. Unterstützt hat die SPD.

Also, liebe Mitglieder der GroKo-Parteien, könnt Ihr da innerparteilich nicht etwas machen? Oder austreten?

Deutsche und britische Unis protestieren gegen Horizon-2020-Kürzungen

Die Hochschulrektorenkonferenz (HRK) und die britische Rektorenkonferenz Universities UK (UUK) haben in einem heute in der britischen Tageszeitung Financial Times veröffentlichten gemeinsamen Beitrag gegen die Kürzungen des europäischen Forschungsprogramms Horizon 2020 protestiert.

Mehr Infos auf Bildungsclick.de und in der gemeinsamen Stellungnahme.

“Easter Eggs” in Wikidata

Es ist nicht besonders überraschend, dass Wikidata ein paar “Easter Eggs” enthält. Nachdem ich zufällig über eines stolperte, habe ich mal ein paar IDs ausprobiert. Mit folgendem Ergebnis:

Q13: Triskaidekaphobie
Q23: George Washington
Q24: Jack Bauer
Q42 : Douglas Adams
Q666: Sechshundertsechsundsechzig
Q1337: Leetspeak
Q2001: Stanley Kubrick

Q1984 ist nicht korrekt belegt, Q167 und Q51 sind auch verrutscht.

Über diesen Hinweis stieß ich noch auf Tim Berners-Lee, der Q80 vermutlich wegen des HTTP-Ports 80 erhielt. Und das Q404 nicht existiert, ist, wenn auch vielleicht nicht beabsichtigt, konsequent.

Es gibt sicherlich noch mehr. Welche habe ich übersehen?

SEO, Freebase und Wikidata

Freebase wird eingestellt, der Schreibzugriff wurde gerade schon abgestellt. Laut Wikidata-Office-Chat wird Wikidata zwar nun von Google unterstützt. Wikidata wird aber nicht die Rolle von Freebase für den Google Knowledge Graph übernehmen, was diverse SEOs anscheinend annehmen.

16:33:26 yeah, one problem is that SEOs think that Wikidata is replacing Freebase within the Google infrastructure
16:33:35 but we need guidelines on SEO on Wikidata
16:33:42 yes, that would be good
16:33:45 companies will come and edit wikidata a lot now
16:33:55 We’ve already seen a huge wave of spam of companies and “SEO experts”
16:33:55 also, Wikidata is not a free ticket into the Knowledge Graph as Freebase was
16:34:07 it is just one source among many
16:34:27 i think we really need to highlight this

Inzwischen wurde dieser Punkt auch in die Wikidata-FAQ übernommen:

No.

Whereas Freebase was the open core of the Knowledge Graph, this is not true for Wikidata. Wikidata is one source of the Knowledge Graph among many, but does not have the same standing as Freebase had.

The most important source of data for the Knowledge Graph is actually the Web itself. You can mark up your own Websites with schema.org and this will be read and processed by all major search engines.

Liebe SEOs, nehmt dies bitte zur Kenntnis. Und nein, ich möchte keine Links mit Euch tauschen. Danke.