WheatVIVO

Die Agrarwissenschaften sind eine umtriebige und innovative Sparte. Neben AgriVIVO – das anscheinend jetzt AgriProfiles heißt – gibt es mit WheatVIVO nun den Anlauf zu einem zweiten Fach-VIVO aus dem Agrarbereich, das in diesem Fall die weltweite Forschung zu Weizen zusammenführen möchte. Bisher gibt es nur eine Infoseite, aber da wird sicherlich noch mehr kommen.

Geoinformationen (Linked Open Data) für VIVO

Beim Aufbau eines Forschungsinformationssystems mit VIVO erschien es uns sinnvoll, einen gewissen Grundstock an Daten zu haben, mit denen wir dann die diversen Beschreibungen der Forschungsaktivitäten an der Hochschule verknüpfen können. Wichtig erschien uns dabei, Informationen über Orte in ordentlicher Qualität zur Verfügung zu haben. Aus dieser Überlegung entstand eine kleine Sammlung von Dateien, die zur Nachnutzung in VIVO vorbereitet ist. Sie können einfach ins Verzeichnis /data/rdf/abox/filegraph kopiert werden und stehen dann nach dem nächsten Neustart zur Verfügung.

Um welche Daten geht es?

Deutsche Orte (GermanyPopulatedPlaces.ttl): Über 7000 Orte in Deutschland mit mindestens 1000 Einwohnern. Beispiel:

<http://sws.geonames.org/6557470> a vivo:PopulatedPlace ;
obo:BFO_0000050 <http://sws.geonames.org/2862926/> ;
rdfs:label "Nordhorn" ;
vcard:geo "geo:52.4149,7.07665" ;
geop:population "52380" .

german_locations_in_VIVO
Schema: Deutsche Orte (vivo:PopulatedPlace), Bundesländer (vivo:StateOrProvince) und Deutschland (vivo:Country).

Deutsche Bundesländer (GermanyStates.ttl):

Alle deutschen Bundesländer, als administrative Zwischenebene zwischen den deutschen Orten und VIVO/FAO-Deutschland.

<http://sws.geonames.org/2862926/> a vivo:StateOrProvince ;
obo:BFO_0000050 <http://sws.geonames.org/2921044/> ;
rdfs:seeAlso <http://d-nb.info/gnd/4042226-4> ;
rdfs:label "Niedersachsen" .

Orte aus der ganzen Welt (WorldPopulatedPlaces.ttl):

Über 8200 Städte mit mehr als 50.000 Einwohnern aus der ganzen Welt. Die Orte sind mit den in VIVO mitgelieferten Staaten aus den FAO-Länder-Profilen (OWL-Datei) verknüpft.

<http://sws.geonames.org/361058> a vivo:PopulatedPlace ;
obo:BFO_0000050 <http://aims.fao.org/aos/geopolitical.owl#Egypt> ;
rdfs:label "Alexandria" ;
vcard:geo "geo:31.21564,29.95527" ;
<http://aims.fao.org/aos/geopolitical.owl#population> "3811516" .

Schema: Städte aus aller Welt.
Schema: Städte aus aller Welt.

Andere Territorien (WorldOtherTerritories.ttl):

In dieser kleinen Datei, über deren Inhalt man trefflich streiten kann, sind Informationen über Territorien gesammelt, deren Status nicht unumstritten ist.

Die Daten stammen überwiegend aus Geonames.org und wurden bearbeitet und zusammengestellt von Elena Liventsova und mir. Sie sollen in Kürze auch auf Datahub.io registriert werden. Auf dem neuen Github-Account der Bibliothek der Hochschule Hannover sind sie ab sofort zu sehen, herunterzuladen und nachzunutzen (Lizenz: CC0). Über Verbesserungsvorschläge, Korrekturen und natürlich Hinweise auf Nutzungen würden wir uns freuen!

Von Citavi über Refine zu VIVO

Kurze Niederschrift eines möglichen Geschäftsgangs, der vermutlich nicht für jedermann verständlich ist. Wer das nachnutzen möchte, möge sich an mich wenden!

  1. Erfassung der Daten in Citavi oder einem anderen Programm, dass tabellarische Ausgabe erlaubt.
  2. Export als CSV-Datei
  3. Import in Google Refine (Open Refine ist noch in einer Alpha-Version, meines Erachtens ist es auch wirklich noch nicht sehr stabil.) Die RDF-Extension sollte installiert sein.
  4. Zusätzlich zu importierende Ontologien in Refine: VIVO und BIBO.
  5. Reconciliation gegen einen aktuellen RDF-Export aus der VIVO-Installation. Dadurch kann man auf recht flotte Art und Weise ein Autorenmatching durchführen. Wenn sowohl in VIVO als auch in den Publikationsdaten Autorenidentifier vorhanden sind, kann man die zum Abgleich verwenden. Achtung, je nach Datenmenge rechnet Refine daran sehr, sehr lange herum. Ein Testlauf von knapp 3000 Publikationen beim Abgleich mit etwa 1200 Personen wurde nach drei oder vier Stunden abgebrochen. Der Fortschrittsbalken stand da bei 45%.
  6. Add column based on this column. GREL Expression: cell.recon.match.id.
  7. Die von Citavi mitgelieferten Dokumententypen durch die VIVO-bekannten ersetzen. GREL Expression:

    value.replace(“Beitrag in …”, “bibo:chapter”).replace(“Beitrag im Gesetzeskommentar”, “fabio:Comment”).replace(“Buch (Monographie)”, “bibo:Book”).replace(“Buch (Sammelwerk”, “bibo:EditedBook”).replace(“Graue Literatur / Bericht / Report”, “vivo:WorkingPaper”).replace(“Hochschulschrift”, “bibo:Thesis”).replace(“Hörspiel”, “bibo:AudioDocument”).replace(“Internetdokument”, “bibo:Webpage”).replace(“Manuskript”, “bibo:Document”).replace(“Musikwerk / Musikalbum”, “bibo:AudioDocument”).replace(“Patentschrift”, “bibo:Patent”).replace(“Schriften eines Autors”, “bibo:Document”).replace(“Software”, “obo:ERO_0000071”).replace(“Sonderheft / Beiheft”, “bibo:Document”).replace(“Spielfilm”, “bibo:Film”).replace(“Tagungsband”, “bibo:Proceedings”).replace(“Unklarer Dokumententyp”, “bibo:Document”).replace(“Vortrag”, “vivo:Speech”).replace(“Zeitschriftenaufsatz”, “bibo:AcademicArticle”).replace(“Zeitungsartikel”, “bibo:Article”)

    1) Es hat sich inzwischen als sinnovoller erwiesen, direkt die URIs zu verwenden, also z.B. http://vivoweb.org/ontology/core#Speech

  8. RDF-Skelett je nach Daten erstellen. An einem optimalen und für möglichst viele denkbare Fälle verwendbaren Skelett wird noch gearbeitet. Besonders bei Beiträgen in Sammelwerken ist das nicht so einfach…
  9. Export als RDF.
  10. Import in VIVO.
  11. “Name Blank Nodes” in VIVO
  12. Die Daten sind drin.

Dieser Geschäftsgang ist weder optimal, noch final. Aber er funktioniert!

Problematisch sind u.a. Beiträge in Sammelwerken oder Zeitschriften-Reconciliation. Bei letzterem setze ich auf Lobid.

References   [ + ]

1. Es hat sich inzwischen als sinnovoller erwiesen, direkt die URIs zu verwenden, also z.B. http://vivoweb.org/ontology/core#Speech

Ein konkreter Anwendungsfall für Open Data

Diskussionen über Open Data bleiben oft abstrakt, die Frage nach einem konkreten Anwendungsfall schwebt immer wieder im Raum. “Wer will denn überhaupt diese Daten haben?” Um diese Frage mit einem Beispiel zu beantworten: ich.

Mein Anwendungsfall ist der Aufbau einer Hochschulbibliographie. Dort sollen nicht nur die Autoren und ihre Publikationen verzeichnet werden, das System soll vielmehr ein Abbild der Forschungsaktivität der Hochschule sein. Dazu setzen wir auf VIVO. Und VIVO arbeitet mit Linked Data.

Ich habe das System und seine Komponenten hier im Blog schon beschrieben. Um meinen Anwendungsfall zu verstehen, reicht ein Blick auf dieses Profil der Boeing Company im VIVO der Cornell University.

Man kann in VIVO also Firmen abbilden, die in irgendeiner Art mit der Forschungs-, Lehr- oder Publikationstätigkeit in Verbindung stehen. Dies ist von vielen Seiten gewünscht. Manche möchten Transparenz darüber, wer die Hochschulforschung finanziert. Andere möchten wissen, welche ProfessorInnen die fleissigsten Drittmitteleinwerber sind. Manche möchten sich dadurch einfach als industrienah präsentieren oder sind auf der Suche nach neuen Kooperationspartnern. Motive gibt es vielerlei.

Nun kann man diese Daten natürlich per Hand eingeben oder die hausintern vorliegenden Daten (die berühmten Excel-Tabellen) nachnutzen. Doch ist das wirklich notwendig? Warum muss jede Hochschule diese Daten selbst pflegen? Welcher Aufwand steckt dahinter, die Daten korrekt und vollständig zu halten? Ich kann ihn nicht beziffern, eine grobe und meines Erachtens durchaus realistische Abschätzung lautet allerdings: er ist mir zu groß.

Und hier kommt der deutsche Datengeiz ins Spiel. OpenCorporates ist ein Verzeichnis für Firmeninformationen. Eines der besonderen Art. Die Daten sind unter ODbL lizenziert, es gibt tolle Schnittstellen und es finden sich dort Infos über sagenhafte 62,035,536 Firmen. Ein beachtlicher Berg!

Davon sind 40,155 aus Albanien, 45,423 aus Aruba, 68,711 aus Pakistan, 104,852 aus Gibraltar, 535,779 aus Irland, 723,842 aus Norwegen, 1,559,918 aus Südafrika oder 8,199,109 aus Großbritannien. Aus Deutschland: 0. Keine einzige.

Nichts gegen Aruba! Eine Insel, deren Wahlspruch “Una isla feliz” (kreolisch für “Eine glückliche Insel”) sicherlich berechtigt ist. Auch die wirtschaftlichen Aktivitäten sind bei 45.000 Firmen auf etwa 100.000 Einwohnern sehr beachtlich. Aber wie kann es sein, dass Aruba schafft, was für Deutschland nicht möglich ist? Liegt es daran, dass der Wahlspruch Deutschlands “Amtsgeheimnis” lauten könnte?

Die Diskussion darüber hatte ich kürzlich erst mit OKF DE, Marian Steinbach und Friedrich Lindenberg. Es wird Zeit, dass sich etwas tut.

Valeria Pesce: A Global Ontology-Driven RDF Store Based on a Distributed Architecture

Die Aufzeichnung des auf der SWIB 13 gehaltenen Vortrags ist (noch?) ab ca. der 13. Minute auf make.tv zu finden. Der Anfang fehlt leider, es beginnt auf Folie 9.

APAs VIVO-Installation

Nicht nur diverse Hochschulen, auch die American Psychological Association (APA) setzt nun auf VIVO. Die Installation inklusive eingepflegter Daten (bisher ca. 7900 Personen etwas über 6000 Publikationen) sind unter vivo.apa.org zu finden. Interessant an diesem Projekt ist unter anderem, dass nicht nur der Jetzt-Zustand abgebildet werden soll, sondern die ganze APA-Historie (z.B. auch inzwischen verstorbene Mitglieder).

Eingebettet ist das Vorhaben in das sogenannte “Publish Trust Project” (bzw. “Publish Trust Framework”).

  • Create strong semantic provenance for authorship
  • Disambiguate authors and their works
  • Produce Uniform Resource Identifiers (URIs) for author attributes
  • Make Resource Description Framework (RDF) payloads for URI delivery within a secure network
  • Create strong online peer circles for journal communities
  • Offer tools and best practices to support publishers of peer-reviewed works as the best source for two-factor assertions of authorship of scientific writing

Dieses Video mit einer fiktiven Fallstudie erklärt, worum es in dem Projekt geht:

VIVO ist eine Community

VIVO ist nicht nur eine Software, ein Netzwerk und eine Ontologie, sondern auch eine Community.

Das Entstehen der aufgeführten Bestandteile ist nur möglich gewesen durch die Förderung des National Instititute of Health (RFA-RR-09-009). Dadurch konnten sich Teams verschiedener Einrichtungen mit der gemeinsamen Entwicklung befassen. Die Kollaboration wird kommuniziert durch Blog oder Twitter. Es gibt ein umfangreiches und einigermaßen gut gepflegtes Wiki, diverse Mailinglisten (unter anderem eine zur VIVO-Ontologie), einen IRC-Channel und Bug-Tracker für verschiedene Themenbereiche.

Darüber gibt es regelmäßige Telefon- und Videokonferenzen:

Weekly development calls and biweekly implementation and ontology calls provide structured opportunities for participating in VIVO, while the IRC Chat and mail lists are more free-form.

Mehr dazu auf der Community-Webseite. Nicht vergessen werden dürfen die “echten” VIVO-Konferenzen, zum Beispiel die letzte vor einigen Wochen in Miami, Florida. Zu den Konferenzen wurden umfangreiche Materialien gesammelt.