Archiviert und visualisiert: die Tweets zum #cch12

Dieses Jahr konnte ich ausnahmsweise nicht zum #cch12. Daher zeige ich jetzt hier, was ich eigentlich dort in einem Session vorstellen wollte. Es geht um die Visualisierung von Twitterkonversationen. Und bevor man Daten visualisieren kann, muss man sie erst einmal sammeln. Dies kann man hervorragend mit R machen. Es gibt aber auch einsteigerfreundlichere Wege.

Von den mir bekannten Tools ist Martin Hawkseys TAGS v3 (Twitter Archiving Google Spreadsheet) eines der einfachsten. Er selbst beschreibt sehr gut, wie man Tweets automatisch in ein Google Spreadsheet archiviert. Der Vorteil dieser Lösung gegenüber R oder anderen Desktoplösungen ist die Verfügbarkeit des Dienstes unabhängig davon, ob der eigene Rechner läuft. Twitter erlaubt via API zur Zeit den Abruf von maximal 1500 Tweets gleichzeitig. 1) Things Every Developer Should Know: Clients may request up to 1,500 statuses via the page and rpp parameters for the search method. Daher können umfangreiche Konversationen nachträglich oft nicht archiviert werden. Lässt man die Applikation jedoch während eines Events laufen, ist die Archivierung weitaus größerer Tweetmengen möglich. Hier ein paar Screenshots, die den Leistungsumfang der Anwendung andeuten:

Martin Hawksey ist ein begnadeter Frickler und stellt zusätzlich zu seinem Archivierungstool (das auch ein paar einfache Analysefunktionen mitbringt) auch eine Visualisierungskomponente zur Verfügung: den TAGSExplorer, dessen Output im ersten Screenshot zu sehen ist. Auch diesen und dessen Anwendung beschreibt er Schritt für Schritt.

Für das folgende Filmchen (Dauer: ca. 1 Minute, unbedingt als Vollbild ansehen!) habe ich die Replay-Funktion einer Twitterkonversation genutzt. 2) Kleines Schmankerl für mitlesende Biblioblogger ist der zum Schluss in die Bildmitte baumelnde @lambo. Die Darstellung ist zufällig und bei jedem Durchlauf anders. Das war allerdings ein First Take, den ich sofort genommen habe. ;o)

Wer selbst mit den Daten herumspielen möchte, kann gerne meine Backup-Version herunterladen. Da ich ab und an mal aufräume, kann ich nicht dafür garantieren, dass die Daten unter dieser Adresse beliebig lange verfügbar sein werden. Hinweise auf angefertigte Derivate nehme ich gerne entgegen!

#SWIB12 habe ich übrigens auch aufgezeichnet. Ich hoffe, das ich mich damit in Kürze etwas näher beschäftigen und noch 1-2 andere Tools vorstellen kann.

References   [ + ]

1. Things Every Developer Should Know: Clients may request up to 1,500 statuses via the page and rpp parameters for the search method.
2. Kleines Schmankerl für mitlesende Biblioblogger ist der zum Schluss in die Bildmitte baumelnde @lambo. Die Darstellung ist zufällig und bei jedem Durchlauf anders. Das war allerdings ein First Take, den ich sofort genommen habe. ;o)

Bibliotheken als Datenanbieter

Alexander Stocker, Peter Scheir und Klaus Tochtermann beschreiben in “Die Wertschöpfungskette der Daten” 1) Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104 vier mögliche Rollen 2) S. 99 in eben dieser Wertschöpfungskette.

  1. Anbieter von Daten am Web sind derzeit noch
    fast ausschließlich Anbieter von Rohdaten. […]
  2. Anbieter von Semantic-Web-Daten sind solche,
    die Daten in einem durch Maschinen interpretierbaren
    Format bereitstellen.[…]
  3. Anbieter von Semantic-Web-Applikationen
    sind solche, die eigene oder fremde Semantic-
    Web-Daten in einer Semantic-Web-Anwendung
    verarbeiten und dabei für den Menschen
    konsumierbaren Output auf Basis der
    verarbeiteten Daten generieren. […]
  4. Endnutzer sind schließlich alle Menschen, die
    eine durch Menschen interpretierbare Präsentation
    von Semantic-Web-Daten konsumieren. Menschliche Endnutzer kommen in der Praxis nicht direkt mit den für die Verarbeitung
    durch Maschinen aufbereiteten Semantic-Web-Daten in Berührung und wollen das vermutlich auch gar nicht.[…]

Bibliotheken können prinzipiell alle vier Rollen einnehmen.

Zuerst natürlich als Rohdatenanbieter von bibliographischen und anderen Daten. Wenn man weitere Wertschöpfungen zulassen möchte, müssen die Daten zwingend unter einer Lizenz veröffentlich werden, die Weiterverarbeitung jeglicher Art nicht ausschließt. Richtig gemacht haben es also unter anderem die Bibliothek des CERN oder USB Köln, die wie alle vom HBZ betreuten Open-Bibliographic-Data-Projekte unter CC0 publiziert sind.

Das Anbieten von Semantic-Web-Daten kann teils im gleichen Auslieferungsschritt erfolgen. Ein Beispiel ist die gestern erfolgte Veröffentlichung eines Teils des Katalogs der British Library als RDF-Dump. Auf der Webseite der BL sind die Bedingungen erläutert:

As part of its work to open its metadata to wider use beyond the traditional library community, the British Library is making copies of its main catalogue and British National Bibliography datasets available for research purposes. Files are initially being made available in RDF/XML […] and are distributed under a Creative Commons CC0 1.0 Universal Public Domain Dedication license.

Eine Weiterverarbeitung ist ausdrücklich erwünscht und durch die gewählte Lizenz auch möglich. Linked Data will auch die Deutsche Nationalbibliothek mit der GND anbieten. In die Wertschöpfungskette können die Daten jedoch nicht gelangen, da die Daten nicht kommerziell genutzt werden dürfen. Abgesehen davon, dass es volkswirtschaftlicher Unsinn ist, staatlich finanzierte Daten nicht zur Verwendung in kommerziellen Unternehmungen freizugeben, ist damit auch die Verwendung in der Wikipedia und Schwesterprojekten nicht möglich. Leider gilt hier: nur gucken, nicht anfassen!

Im Open Bibliographic Data Guide hat das JISC erläutert, wie man es richtig macht. Oliver Flimm schreibt (zum Reader und der Wichtigkeit der Lizenzwahl):

Nur so kann ein realer Nutzen innerhalb der Bibliothekswelt und anderswo entstehen. So sind wir z.B. sehr dankbar über Rückmeldungen von Fehlern in Verbund-Katalogisaten, bei denen wir Bestand haben, (Verknüpfung von Titeln mit Personensätzen, die eine falsche PND besitzen), die extern bei der Verarbeitung unserer geöffneten Daten aufgefallen sind.

Über Bibliotheken in den anderen beiden Rollen, also als Datennutzer wird es hier demnächst etwas zu lesen geben.

Weitere Informationen zu Open Bibliographic Data:

Adrian Pohl: Open Bibliographic Data in 2010. Ein vorläufiger Überblick

References   [ + ]

1. Die Wertschöpfungskette der Daten : eine Basis für zukünftige wirtschaftswissenschaftliche Betrachtungen des Web of Data. HMD – Praxis der Wirtschaftsinformatik, Heft 275/2010, S. 94-104
2. S. 99

Welchen OA-Server hätten Sie gerne?

Eine hübsche kleine Service-Leistung liefert The Depot, ein Open-Access-Repository an der University of Edinburgh. Zum Depot:

The purpose of the Depot is to enable all academics worldwide to share in the benefits of open access exposure for their research outputs. The Depot is provided as an international facility geared to support the policies of universities and national funding agencies towards Open Access, aiding policy development in advance of a comprehensive institutional archive network.

Wer dort eine Publikation veröffentlichen will, bekommt (je nach IP-Netz) eventuell den jeweils lokal ansässigen Dokumentenserver vorgeschlagen. So sieht das aus: