R ist auf dem Vormarsch

CC-BY-SA 4.0 von Joshua Kunst
CC-BY-SA 4.0 von Joshua Kunst

Auf Stackoverflow ist R die am schnellsten wachsende Programmiersprache, und Microsoft hat eine Microsoft-R-Server-Produktfamilie an den Start gebracht. Ein Klick auf den ersten Link (zu diesem Posting von Joshua Kunst) zeigt übrigens eindrucksvoll, was man mit R alles anfangen kann. Stöbern im Blog lohnt sich, da gibt es fantastische Visualisierungen zu entdecken.

Dauer einer Datenübertragung berechnen

usb-flash-drive-695116_960_720

Ab und an muss man wissen, wie lange eine Datenübertragung von X GB mit der Methode Y dauern würde. Also per USB 2.0, USB 3.0 oder per Glasfaser. Auf Rechneronline.de stehen dazu diverse und nach meinen Erfahrungen zumindest ausreichend genaue Rechner zur Verfügung. Zu beachten ist, dass zahlreiche Faktoren (verwendete Treiber etc.) auf die Geschwindigkeit Einfluss nehmen können. Für eine grobe Annäherung ist der Rechner jedoch durchaus tauglich. Manchmal muss man schließlich nur wissen: Schaffe ich den Datentransfer vor dem Feierabend, oder nicht?

Vielbefragter Wikidata Query Service

Die Nutzung des Wikidata Query Service ist seit einigen Tagen um ein zigfaches gestiegen, wie man der entsprechenden Monitoring-Seite entnehmen kann. Die Ursache ist anscheinend noch unklar. Vielleicht ein amoklaufendes Skript oder ein Dienst, der Wikidata produktiv eingebaut hat? Bemerkenswert ist allerdings, dass man als Normalnutzer nichts davon mitbekommt. Ein Lob an die Admins, deren betreute Infrastruktur diese Explosion einfach so auffängt.

[via Wikidata-List]

Word und die Folgen

Teil der Operation Frühjahrsputz 2015, in deren Verlauf angefangene und nie beendete Postings einfach so veröffentlicht werden.

In the beginning was the Word:

There is no single cause of the problems with the economics of scholarly communications. The expectation that we can publish more and more research on the same, or lesser, budgets is one factor. The rise of profiteering commercial publishers is another. There is also a group of smaller other aspects, though, one of which I will discuss here.

It may sound overblown, but a crucial stumbling block in reconfiguring the economics of scholarly communications for the digital age is Microsoft Word.

Und nerdige Markups und -downs sind noch lange keine Lösung, solange man sie nicht Otto-Normal-AutorIn vermitteln kann.

Felix Lohmeier: Datenintegration mit D:SWARM

Datenintegration mit D:SWARM

Abstract:

Nach desillusionierenden Erfahrungen mit den auf dem Markt erhältlichen Discovery-Systemen und den darin enthaltenen Normalisierungsfunktionen haben wir im Juni 2013 begonnen, eine technisch weit in die Zukunft reichende Vision zu realisieren: Kulturerbe-Institutionen sollen Daten aus unterschiedlichsten Quellsystemen mit einem integrierten Werkzeug auf einfache, intuitive Weise miteinander verknüpfen und anreichern können. Die Datenqualität soll signifikant verbessert werden. Daten werden in einem Graphenformat verarbeitet, der entstehende spezifische Wissensgraph soll als zentrale Datenhaltung für vorhandene Kataloge und neue Präsentationssysteme dienen und gleichzeitig die bibliothekarischen Daten als Linked Open Data für andere Einrichtungen zur Nachnutzung bereitstellen. Alles intuitiv und einfach nutzbar, interoperabel und auf Basis von Open Source-Technologien. Dank der Finanzierung aus Mitteln der Europäischen Union und des Freistaates Sachsen (EFRE) konnten wir an dieser Vision mit zusätzlichen Software-Entwicklern und gemeinsam mit einer auf Big Data spezialisierten Dresdner Firma, Avantgarde Labs GmbH, arbeiten. Dieser kurze Artikel soll über den bis Mai 2015 erreichten Entwicklungsstand und die geplanten nächsten Meilensteine informieren.

Zum Volltext.

xISSN und Google Refine: Infos über Zeitschriften sammeln

Für Vertragsverhandlungen wollte ich herausfinden, bei welchen Verlagen die Autoren unserer Hochschule Zeitschriftenartikel veröffentlicht haben. In einem Citaviprojekt habe ich eine Stichprobe von ca. 1000 Artikeln, die ich verwenden wollte. Das Problem: In Citavi sind die Zeitschriftenverlage nicht ordentlich zu hinterlegen. Die Lösung: wir haben die ISSN, und mit xISSN gibt es eine ganz brauchbare Schnittstelle, um mehr Daten zu einer ISSN zu bekommen.

Das Vorgehen:
Die Artikeldaten wurden inklusive ISSN in eine CSV-Tabelle exportiert. Diese CSV-Tabelle habe ich in Google (oder Open) Refine importiert. Dort ging es dann weiter. Zunächst habe ich die Spalte ISSN auf jeweils eine ISSN reduziert. In einigen Fällen waren mehrere ISSN (online und offline) im Feld.

Transform auf der Spalte ISSN mit dem Kommando slice(value, -9) nimmt die jeweils 9 letzten Zeichen und wirft den Rest weg. Aus 1234-5678, 9876-5432 wird also 9876-5432.

ISSN-Analyse in Google Refine

Danach “Add column by fetching urls on column ISSN” mit dem Kommando “http://xissn.worldcat.org/webservices/xid/issn/”+value+”?method=getHistory&format=json”, mit Anführungszeichen! Das dauert dann ganz schön. In meinem Fall hat es ca. zwei bis drei Stunden gedauert für etwa 1000 Titel.

Danach erhalte ich eine Spalte, in der die Daten zu einer Zeitschrift im JSON-Format enthalten sind. Daraus wiederum extrahiere ich eine neue Spalte (“Add column based on this column”) mit value.parseJson().group[0].list[0].publisher. Fertig.

Naja, es muss dann noch ein bißchen aufgeräumt werden. Allein Springer fand ich in 5 verschiedenen Schreibweisen, ebenso die American Physical Society. Aber prinzipiell war es das.

Citavi 5 bleibt voll und ganz bei Microsoft

Mit Citavi 5 ist gerade eine neue Version eines der – zumindest meiner Meinung nach – komfortabelsten Literaturverwaltungsprogramme erschienen. Es gibt viele neue Features. Unter anderem auch Citavi for DB-Server.

“For DB-Server” heißt im Großen und Ganzen, dass zur Speicherung der Daten keine lokale SQLite-Datenbank genutzt wird, sondern ein SQL-Server. Da jubelt das Bibliothekarsherz, denn so etwas ist echt praktisch für die Teamarbeit für dislozierte Kontributoren. Aber auch, um via Citavi die Publikationen einer Institutionsbibliographie zu pflegen. Also ab in die Dokumentation, und was finde ich da:

Wenn Sie sich für Citavi for DBServer entscheiden, speichern Sie die Citavi Projekte auf einem SQL-Server. Die Citavi-Projekte werden vom Datenbankbesitzer angelegt. Der Datenbankbesitzer kann dieses Recht an Nutzer übertragen.

Toll, genau das benötige ich! Dann gehe ich einen Abschnitt weiter und muss Folgendes lesen:

Ein Fenster (vergittert)
Ein Fenster (vergittert). Von: Nyttend.

Wenn Sie Citavi for DBSever nicht mit dem SQL Server Ihrer Firma verwenden können oder noch kein SQL Server verfügbar ist, nutzen Sie Microsoft® SQL Server® 2014 Express. (Andere SQL-Server wie MySQL werden aktuell nicht unterstützt.)

MySQL und PostGreSQL sind vermutlich an fast jeder Hochschule zigfach vorhanden, ebenso das dazugehörige Knowhow. MySQL ist auch bei fast jedem Billig-Webhosting dabei. Im Citavi-Forum wird das ähnlich gesehen. Dort steht als Antwort eines Citavi-Mitarbeites:

Sie wissen vermutlich, dass es mit MS SQL Server Express eine kostenlose Version gibt. Obwohl das Datenbanksystem also so proprietär wie Citavi ist, entstehen für die Nutzer keine Kosten über die Citavi-Lizenzen hinaus.

Richtig. Aber finde ich in meiner Institution jemanden, der sich damit auskennt und mir mal flugs den Gefallen tut, eine solche Datenbank einzurichten? Mein Fazit: Schade, da hat Citavi eine große Chance vertan, das Fenster zur Nicht-Windows-Welt zumindest für “Spezialanwender” wie mich ein kleines bißchen zu öffnen.

Kostenfreies SPARQL-Webinar

Webinar Date: Wednesday, 13 May 2015, 10:00am-11:15am EDT (UTC 14:00 – World Clock: http://bit.ly/Webinar-Ethan_Gruber)

Abstract: This webinar provides an introduction to SPARQL, a query language for RDF. Users will gain hands on experience crafting queries, starting simply, but evolving in complexity. These queries will focus on coinage data in the SPARQL endpoint hosted by http://nomisma.org: numismatic concepts defined in a SKOS-based thesaurus and physical specimens from three major museum collections (American Numismatic Society, British Museum, and Münzkabinett of the Staatliche Museen zu Berlin) linked to these concepts. Results generated from these queries in the form of CSV may be imported directly into Google Fusion Tables for immediate visualization in the form of charts and maps.

Nach hiesiger Zeit: Mittwoch, 13. Mai 2015 um 16 Uhr. Mehr Infos gibt es auf Dublincore.org.