Hauschke/Liventsova: Erstellung wiederverwendbarer RDF-Geodaten mit Google Refine

Gemeinsam mit Elena Liventsova habe ich meinen ersten Informationspraxis-Artikel veröffentlicht: Erstellung wiederverwendbarer RDF-Geodaten mit Google Refine.

Abstract:

Das Forschungsinformationssystem VIVO bietet als Linked-Data-basiertes System die Möglichkeit, Daten aus anderen Quellen wiederzuverwenden. In der Praxis kann man dabei auf Konvertierungsprobleme stoßen. Oft liegen Daten nur in tabellarischem Format vor, z.B. als CSV-Datei. Zur Konvertierung dieser Daten existieren verschiedene Werkzeuge, viele dieser Werkzeuge erfordern jedoch entweder spezielle technische Umgebungen (oft Linux-Systeme) oder sie sind in der Bedienung sehr anspruchsvoll. Im Artikel wird ein Workflow für die Konvertierung von Daten aus GeoNames für VIVO mit Google Refine beschrieben.

Das Ergebnis des beschriebenen Vorgangs wurde schon hier im Blog erwähnt und ist auf Zenodo und auf Github zu finden.

Es war übrigens sehr aufschlussreich, den Informationspraxis-Veröffentlichungsprozess einmal aus Autorensicht zu erleben. Und nun kann ich die Veröffentlichung dort auch als Autor durchaus empfehlen – was vermutlich niemanden überraschen wird. Das nicht-anonyme Peer Review empfand ich als sehr konstruktiv. Schwächen des Artikels konnten behoben werden, und dadurch, dass die Begutachtung nicht anonym war, konnten direkte Rückfragen die Bearbeitung des Artikels erheblich beschleunigen. Meine Erfahrungen decken sich an dieser Stelle mit dem Feedback, dass wir bislang von anderen AutorInnen bekommen haben. Wer das auch erfahren möchte: hier geht es lang!

Data Munging Tools in Preparation for RDF: Catmandu and LODRefine

Die neue Code4Lib-Ausgabe 30 ist da. Besonders interessant:

Data Munging Tools in Preparation for RDF: Catmandu and LODRefine von Christina Harlow

Abstract:

Data munging, or the work of remediating, enhancing and transforming library datasets for new or improved uses, has become more important and staff-inclusive in many library technology discussions and projects. Many times we know how we want our data to look, as well as how we want our data to act in discovery interfaces or when exposed, but we are uncertain how to make the data we have into the data we want. This article introduces and compares two library data munging tools that can help: LODRefine (OpenRefine with the DERI RDF Extension) and Catmandu.

The strengths and best practices of each tool are discussed in the context of metadata munging use cases for an institution’s metadata migration workflow. There is a focus on Linked Open Data modeling and transformation applications of each tool, in particular how metadataists, catalogers, and programmers can create metadata quality reports, enhance existing data with LOD sets, and transform that data to a RDF model. Integration of these tools with other systems and projects, the use of domain specific transformation languages, and the expansion of vocabulary reconciliation services are mentioned.