Data Munging Tools in Preparation for RDF: Catmandu and LODRefine

Die neue Code4Lib-Ausgabe 30 ist da. Besonders interessant:

Data Munging Tools in Preparation for RDF: Catmandu and LODRefine von Christina Harlow

Abstract:

Data munging, or the work of remediating, enhancing and transforming library datasets for new or improved uses, has become more important and staff-inclusive in many library technology discussions and projects. Many times we know how we want our data to look, as well as how we want our data to act in discovery interfaces or when exposed, but we are uncertain how to make the data we have into the data we want. This article introduces and compares two library data munging tools that can help: LODRefine (OpenRefine with the DERI RDF Extension) and Catmandu.

The strengths and best practices of each tool are discussed in the context of metadata munging use cases for an institution’s metadata migration workflow. There is a focus on Linked Open Data modeling and transformation applications of each tool, in particular how metadataists, catalogers, and programmers can create metadata quality reports, enhance existing data with LOD sets, and transform that data to a RDF model. Integration of these tools with other systems and projects, the use of domain specific transformation languages, and the expansion of vocabulary reconciliation services are mentioned.

ZDB als Open Data

Eine fantastische Nachricht hat die DNB veröffentlicht:

Seit Juni 2014 ist der größte Teil der Metadaten der Zeitschriftendatenbank (ZDB) unter den Bedingungen „Creative Commons Zero (CC0 1.0)“ verfügbar. Damit sind rund 1,7 Mio. Titeldaten in allen Sprachen und ohne zeitliche Einschränkung mit über 13 Mio. Besitznachweisen für die Weiterverwendung freigegeben. Die Freigabe bezieht sich ausdrücklich auch auf die kommerzielle Nutzung. Durch diesen Schritt wird die Nachnutzung der qualitativ hochwertigen Metadaten der weltweit größten Datenbank für Titel- und Besitznachweise fortlaufender Sammelwerke, also von Zeitschriften, Zeitungen, Schriftenreihen und anderen periodisch erscheinenden Veröffentlichungen in gedruckter und elektronischer Form, für jedermann möglich.

Ich lade mir dann mal die ZDB runter. Wer es mir nachtun möchte: hier geht es zu den Downloads.

[via Netbib]

Valeria Pesce: A Global Ontology-Driven RDF Store Based on a Distributed Architecture

Die Aufzeichnung des auf der SWIB 13 gehaltenen Vortrags ist (noch?) ab ca. der 13. Minute auf make.tv zu finden. Der Anfang fehlt leider, es beginnt auf Folie 9.

Linked Open Vocabularies (LOV)

Die Open Knowledge Foundation hosted nun Linked Open Vocabularies (LOV), eine Verzeichnis von – genau – Linked Open Vocabularies.

LOV Project in 5 points

  • LOV is about vocabularies (aka. metadata element sets or ontologies) in OWL / RDFS used to describe linked data.
  • LOV provides a single-stop access to the Vocabulary Commons ecosystem
  • LOV helps to improve vocabularies understanding, visibility, usability, synergy, sustainability and overall quality
  • LOV promotes a technically and socially sustainable management of the Vocabulary Commons ecosystem
  • LOV is a community and open project. You are welcome to join the team of gardeners of the Vocabulary Commons!

Dort findet man z.B. diverse Vokabulare, wenn man mal Konferenzen als LOD beschreiben möchte.

[via @acka47]

Pressemitteilung zu Wikidata

Quelle: Pressemitteilungen/PM 3 12 Wikidata, CC: BY-SA

Die Zukunft der Wikipedia

Wikidata wird das erste neue Wikimedia-Projekt seit 2006

Vom 30. März bis 1. April findet in Berlin die jährliche Wikimedia Conference mit Teilnehmern aus 40 Ländern statt. Zeitgleich startet Wikimedia Deutschland mit Wikidata ein völlig neues Wikimedia-Projekt. Wikidata wird eine offene Datenbank für das Wissen der Welt werden, an der jeder mitarbeiten kann. Das erste Ziel des Projekts ist es, die mehr als 280 Sprachversionen von Wikipedia mit einer einzigen gemeinsamen Datenquelle auszustatten. Damit können weltweit die Daten der Artikel in allen Sprachen der freien Enzyklopädie ergänzt und zentral gepflegt werden. Aber auch außerhalb von Wikipedia können die Daten verwendet werden, zum Beispiel in Blogs oder auf Webseiten. Das Prinzip einer gemeinsamen Datenquelle soll die Qualität und Übereinstimmung von Wikipedia-Artikeln verbessern. Durch Wikidata werden mehr Informationen in kleineren Sprachversionen von Wikipedia verfügbar gemacht. Gleichzeitig wird es für Zehntausende freiwillige Wikipedia-Autoren erheblich einfacher, Daten in der Enzyklopädie aktuell zu halten.

Der Vorstand von Wikimedia Deutschland, Pavel Richter, erklärt : “Wir betreten Neuland. Wikidata ist das größte technische Projekt, das jemals eine der 40 Länderorganisationen der Wikimedia-Bewegung in Angriff genommen hat. Wikimedia Deutschland widmet sich mit Begeisterung der Aufgabe, durch Wikidata die Datenverwaltung der größten Wissenssammlung der Menschheit deutlich zu verbessern.”

Neben den Wikimedia-Projekten werden auch zahlreiche externe Anwendungen von den Daten profitieren. Mit Wikidata können Daten vernetzt und annotiert werden, was beispielsweise für wissenschaftliche und öffentliche Daten von großer Bedeutung ist. Die Wikidata-Inhalte werden unter einer freien Creative Commons-Lizenz veröffentlicht.

Das Projekt wird mittels einer Großspende von 1,3 Millionen Euro finanziert, die zur Hälfte vom Allen Institute for Artificial Intelligence ([ai]²) stammt. Das Institut wurde 2010 von Paul G. Allen, Mitgründer von Microsoft, ins Leben gerufen und unterstützt langfristige Forschungsarbeiten, die den Fortschritt auf dem Gebiet der Künstlichen Intelligenz beschleunigen sollen.

“Wikidata ist eine einfache wie kluge Idee und ein bedeutender nächster Schritt in der Entwicklung von Wikipedia”, sagt Dr. Mark Greaves, Vizepräsident des Allen Institute for Artifical Intelligence. “Es wird die Art und Weise verändern, wie enzyklopädische Daten veröffentlicht, zugänglich gemacht und von Menschen weltweit verwendet werden können. Wikidata baut auf semantischen Technologien auf, die wir seit Langem unterstützen. Das Projekt wird den Takt wissenschaftlicher Entdeckungen beschleunigen und der Welt eine außergewöhnliche neue Datenquelle bereitstellen.”

Ein Viertel der Entwicklungskosten von Wikidata ist durch eine Spende der Gordon and Betty Moore Foundation gesichert. Die Vision der Gordon and Betty Moore Foundation ist es, messbare, nachhaltige und weitreichende Erfolge in Umweltschutz und Wissenschaft zu erzielen.

“Wikidata ist für die Forschung bedeutend”, sagt Chris Mentzel vom wissenschaftlichen Programm der Gordon and Betty Moore Foundation. “Das Projekt wird ein wichtiges Datenangebot für Wikipedia sein. Zusätzlich können beispielsweise Wissenschaftler die einfach bedienbare Wikidata-Software herunterladen. Wikidata ermöglicht ihnen, ständig wachsende und komplexe wissenschaftliche Datenmengen zu verwalten und daraus wertvolle Schlüsse zu ziehen.”

Google, Inc. stellt ein weiteres Viertel der Wikidata-Finanzierung bereit. Chris DiBona, Leiter des Bereichs Open Source, sagt: “Googles Auftrag ist es, die Informationen der Welt überall zugänglich und sinnvoll verwendbar zu machen. Darum freuen wir uns, am Projekt Wikidata teilzuhaben. Wir hoffen, dass damit erhebliche Mengen strukturierter Daten der Allgemeinheit zur Verfügung gestellt werden können.”

Wikidata wird in drei Phasen entwickelt. Der Abschluss der ersten Phase erfolgt voraussichtlich bis August 2012. Darin werden Links zwischen verschiedenen Sprachversionen von Wikipedia zentral an einer Stelle gesammelt. In der zweiten Phase können Nutzer Daten verwenden und neue hinzufügen. Die Ergebnisse der Auswertung werden hierfür im Dezember 2012 veröffentlicht. Die dritte und letzte Phase wird die automatische Erstellung von Listen und Grafiken erlauben.

Wikimedia Deutschland führt die drei Phasen aus und übergibt anschließend den Betrieb und die Wartung von Wikidata an die Wikimedia Foundation. Geplanter Übergabetermin ist März 2013. Das Team von acht Software-Entwicklern wird von Dr. Denny Vrandečić geleitet. Er wechselte vom Karlsruher Institut für Technologie zu Wikimedia Deutschland. Zusammen mit Dr. Markus Krötzsch von der University of Oxford hat er das Semantic-MediaWiki-Projekt gegründet. Der Projektvorschlag für Wikidata wurde mit finanzieller Unterstützung des EU-Projekts RENDER entwickelt, an dem Wikimedia Deutschland als einer der Anwendungspartner ebenfalls beteiligt ist.


Links

Ontology for Innovation

Fundstück: Ontology for Innovation

One key use case for this ontology is to faciliate the matching of needs and innovations. This document does not provide specific guidelines or formal rules for achieving this. However the following concepts might be factors in deciding when an innovation qualifies as fulfilling a need. This can also incrementally be applied to qualify innovations as solutions to problems (and hence qualify as fulfilling a need).

LODUM Productivity Map

Im LODUM-Projekt (Linked Open Data University of Münster) werden (Linked Open) Daten rund um die Uni Münster gesammelt und damit herumexperimentiert. In eigenen Worten:

One of the main goals of LODUM is to open up the university’s data silos, integrate the data, and make it easy to build applications on top of the data collection. This productivity map for Google Earth is an example of such an application. It renders the university buildings in 3D – the building height indicates the number of publications written by researchers working in the respective building.

Und so sieht das dann aus:

SPARQL: PNDs aller Hochschullehrer einer Hochschule aus DBPedia

DBPedia gibt ruckzuck die Liste aller PPN PNDs von in Wikipedia vorhandenen Hochschullehrern einer bestimmten Hochschule aus. Wenn man weiß, wie es geht.
Am Beispiel der Hochschule Hannover:

1
2
3
4
5
6
7
SELECT DISTINCT ?individualisedPnd ?name WHERE {
    ?test <http://purl.org/dc/terms/subject> <http://de.dbpedia.org/resource/Kategorie:Hochschullehrer_(FH_Hannover)> .
    ?test foaf:name ?name .
    ?test dbpedia-owl:individualisedPnd ?individualisedPnd .
    ?test foaf:surname ?surname .
}
ORDER BY ?surname

Ausprobieren kann man das mit iSPARQL, hier das aufgeführte Beispiel. Dies für andere Hochschulen auszuprobieren, ist natürlich einfach: “Kategorie:Hochschullehrer_(FH_Hannover)” durch die entsprechende Kategorie ersetzen und fertig.

Man erhält natürlich nur die PPN PNDs der Hochschullehrer, die auch in der entsprechenden Kategorie erfasst sind.

Wie übersetzt man "Fakultät"?

Ein Grundsatz im Linked-Data-Bereich ist: Nutze vorhandene Ontologien. Allerdings nur, wenn sie auch tatsächlich passen. Und genau diese Frage stelle ich mir gerade: Kann man die VIVO-Ontologie (Link geht zur OWL-Datei) auch für deutsche Hochschulen verwenden?

Ein gravierendes Problem sind die Bezeichnungen für Organisationseinheiten. VIVO stammt aus dem US-amerikanischen Hochschulbereich und versucht dementsprechend, dortige Verhältnisse abzubilden. Versucht man nun, Fakultäten in VIVO darzustellen, stellt man fest: es gibt sie nicht. Es gibt:

  • Association
  • Center
  • ClinicalOrganization
  • College
  • Company (PrivateCompany)
  • Consortium
  • Department (AcademicDepartment)
  • Division
  • ExtensionUnit
  • Foundation
  • FundingOrganization
  • GovernmentAgency
  • Hospital
  • Institute
  • Laboratory (CoreLaboratory, ResearchLaboratory)
  • Library
  • Museum
  • Program
  • Publisher
  • ResearchOrganization
  • School
  • StudentOrganization
  • University

Dazu kommt, dass die Terms nicht einheitlich und korrekt angewendet werden. Beispiel: Faculty of Medicine, University of Tirana (Albania) ist laut VIVO eine Universität, zumindest wird sie in Zeile 3 so bezeichnet:

1
2
3
4
5
6
<rdf:RDF>
 <rdf:Description rdf:about="http://vivo.med.cornell.edu/individual/org-200002226">
 <rdf:type rdf:resource="http://vivoweb.org/ontology/core#University"/>
 <rdfs:label>Faculty of Medicine, University of Tirana (Albania)</rdfs:label>
</rdf:Description>
</rdf:RDF>

Doch zurück zum Kernproblem: Kann man eine dt. Fakultät im englischen mit Department übersetzen? Auf die Frage bekam ich drei verschiedene Antworten. Ja, Jein, Nein. Und Dr01de stellte auf Twitter fest, dass Wikipedia in diesem Fall nicht sonderlich hilfreich ist.
Fangen wir beim academic department und gehen zur russischen Version des Artikels. Dann zur deutschen Wikipedia. Dort heißt das Academic Department auf einmal Lehrstuhl. Von hier aus wieder zurück in die englische Wikipedia. Dort sind wir nun bei den named professorships angelangt. Ist ein academic department also dasselbe wie ein named professorship? ;o)

Was will uns der Autor mir diesem Posting mitteilen? Ganz einfach: Ich suche den Königsweg, wie man eine Hochschule in RDF mit einer vorhandenen und in Hochschulkreisen möglichst weit verbreiteten Ontologie darstellen kann und hoffe auf diesem Wege sachdienliche Hinweise zu erhalten. Für die Verbreitung meines Hilferufs wäre ich sehr dankbar!