Archiviert und visualisiert: die Tweets zum #cch12

Dieses Jahr konnte ich ausnahmsweise nicht zum #cch12. Daher zeige ich jetzt hier, was ich eigentlich dort in einem Session vorstellen wollte. Es geht um die Visualisierung von Twitterkonversationen. Und bevor man Daten visualisieren kann, muss man sie erst einmal sammeln. Dies kann man hervorragend mit R machen. Es gibt aber auch einsteigerfreundlichere Wege.

Von den mir bekannten Tools ist Martin Hawkseys TAGS v3 (Twitter Archiving Google Spreadsheet) eines der einfachsten. Er selbst beschreibt sehr gut, wie man Tweets automatisch in ein Google Spreadsheet archiviert. Der Vorteil dieser Lösung gegenüber R oder anderen Desktoplösungen ist die Verfügbarkeit des Dienstes unabhängig davon, ob der eigene Rechner läuft. Twitter erlaubt via API zur Zeit den Abruf von maximal 1500 Tweets gleichzeitig. [1] Things Every Developer Should Know: Clients may request up to 1,500 statuses via the page and rpp parameters for the search method. Daher können umfangreiche Konversationen nachträglich oft nicht archiviert werden. Lässt man die Applikation jedoch während eines Events laufen, ist die Archivierung weitaus größerer Tweetmengen möglich. Hier ein paar Screenshots, die den Leistungsumfang der Anwendung andeuten:

Martin Hawksey ist ein begnadeter Frickler und stellt zusätzlich zu seinem Archivierungstool (das auch ein paar einfache Analysefunktionen mitbringt) auch eine Visualisierungskomponente zur Verfügung: den TAGSExplorer, dessen Output im ersten Screenshot zu sehen ist. Auch diesen und dessen Anwendung beschreibt er Schritt für Schritt.

Für das folgende Filmchen (Dauer: ca. 1 Minute, unbedingt als Vollbild ansehen!) habe ich die Replay-Funktion einer Twitterkonversation genutzt. [2]Kleines Schmankerl für mitlesende Biblioblogger ist der zum Schluss in die Bildmitte baumelnde @lambo. Die Darstellung ist zufällig und bei jedem Durchlauf anders. Das war allerdings ein First … Continue reading

Wer selbst mit den Daten herumspielen möchte, kann gerne meine Backup-Version herunterladen. Da ich ab und an mal aufräume, kann ich nicht dafür garantieren, dass die Daten unter dieser Adresse beliebig lange verfügbar sein werden. Hinweise auf angefertigte Derivate nehme ich gerne entgegen!

#SWIB12 habe ich übrigens auch aufgezeichnet. Ich hoffe, das ich mich damit in Kürze etwas näher beschäftigen und noch 1-2 andere Tools vorstellen kann.

References

References
1 Things Every Developer Should Know: Clients may request up to 1,500 statuses via the page and rpp parameters for the search method.
2 Kleines Schmankerl für mitlesende Biblioblogger ist der zum Schluss in die Bildmitte baumelnde @lambo. Die Darstellung ist zufällig und bei jedem Durchlauf anders. Das war allerdings ein First Take, den ich sofort genommen habe. ;o)

Wer traut der Cloud?

Gartner hat Cloud Computing zu einer der Strategic Technologies for 2011 erklärt. In Wikipedia ist Cloud Computing folgendermaßen zusammengefasst:

Ein Teil der IT-Landschaft (in diesem Zusammenhang etwa Hardware wie Rechenzentrum, Datenspeicher sowie Software wie Mail- oder Kollaborationssoftware, Entwicklungsumgebungen, aber auch Spezialsoftware wie Customer-Relationship-Management (CRM) oder Business-Intelligence (BI)) wird durch den Anwender nicht mehr selbst betrieben oder bereitgestellt, sondern von einem oder mehreren Anbietern als Dienst gemietet. Die Anwendungen und Daten befinden sich dann nicht mehr auf dem lokalen Rechner oder im Firmenrechenzentrum, sondern in der (metaphorischen) Wolke (engl. „cloud“). Das Bild der Wolke wird in Netzwerkdiagrammen häufig zur Darstellung eines nicht näher spezifizierten Teils des Internet verwendet.

Es geht als darum, Ressourcen zu sparen. Klingt attraktiv, doch kann man der Cloud wirklich trauen? Zwei Fälle in der jüngsten Vergangenheit sollten mindestens misstrauisch machen.

Yahoo vs. Delicious.com

Yahoo will Delicious verkaufen. Zumindest nicht mehr schließen, wie es kurze Zeit hieß. Auch wenn sich die erste Aufregung schon wieder ein wenig gelegt hat, steht fest, dass Delicious und ähnliche, in der Cloud gelagerten Dienste nicht Teil einer kritischen Infrastruktur sein dürfen. Wenn die Linksammlung einer Bibliothek kurze Zeit ausfällt, bis sie zu einem anderen Dienst übertragen ist, wäre das nur ärgerlich. Es sind jedoch auch Szenarien denkbar, in denen ein Dienst wie Delicious eine für den Fortgang einer Bibliothek oder eines Forschungsprojekts wesentlichere Funktion einnimmt.

Wikileaks vs. Amazon

Man mag von den Cablegate-Veröffentlichungen halten, was man will. Fakt ist, dass bislang niemand für die Veröffentlichung der Depeschen verklagt oder gar verurteilt wurde. Dennoch hat sich Amazon, wo Wikileaks bislang in der EC2-Cloud gehostet wurde, dazu entschieden, Wikileaks auszusperren. Dies ist ein Vorgehen von nicht zu unterschätzender Relevanz. Wenn zum Beispiel eine Bibliothek ein Online-Archiv in der Cloud errichten möchte, kann sie es auf keinen Fall dem Cloud-Provider überlassen, welche Inhalte sie dort publizieren darf und welche nicht.

Wichtig: Risikoabschätzung

Das Thema “Cloud Computing” ist nicht nur ein Modethema, es ist jetzt schon Alltag. Man denke nur an Google Docs oder die Dropbox. Wenn Cloud-Dienste in Anspruch genommen werden sollen, ist es unbedingt notwendig, die möglichen Risiken abzuschätzen. Hilfreich kann dabei die Broschüre zum Cloud Computing Risk Assessment der European Network and Information Security Agency sein. Dort werden verschiedene Risikofaktoren unterteilt in drei Felder (Technical risks, policy and organizational risks und legal risks) identifiziert und erörtert. Auch der NYT-Artikel “Lost in the Cloud” von Jonathan Zittrain gibt Hinweise auf weitere mögliche Risiken zum Beispiel für den Datenschutz.

PS: Wer noch keine Dropbox hat und mir einen Gefallen tun möchte, kann sich über diesen Link dort anmelden. Durch die Anmeldung bekomme ich eine Prämie in Form von mehr Speicherplatz.

Online-Bürosoftware: Google Docs vs. Office Live?

Steven Burke schreibt über fünf Gründe, warum Google Docs (auf deutsch “Text und Tabellen” besser sei als der Office Live Workspace von Microsoft.

1. Office Live Workspace Does Not Allow You To Create And Edit Documents Within A Web Page. Google Docs Does.
2. Microsoft Office Live Workspace Has A 250 Mbyte 1,000 Average Office Documents Limitation. Google Docs Does Not.
3. Microsoft’s Office Live WorkSpace Is VaporWare. Google Docs is Real.
4. You’re Better Off Trusting Google Than Microsoft When It Comes To Web 2.0 Security Issues.
5. Office Live Workspace Is Optmized For Microsoft Office Word, Excel and PowerPoint Data. Google Is Optimized For Web 2.0.

Wenn man wirklich Google Docs verwendet, sollte man sich aber bewusst sein, dass Google sich laut Golem.de weitreichende Rechte der mit Google Texte & Tabellen erstellten Werke sichert. Punkt 11 der entsprechenden AGB lautet:

Durch Übermittlung, Einstellung oder Darstellung der Inhalte gewähren Sie Google eine dauerhafte, unwiderrufliche, weltweite, kostenlose und nicht exklusive Lizenz zur Reproduktion, Anpassung, Modifikation, Übersetzung, Veröffentlichung, öffentlichen Wiedergabe oder öffentlichen Zugänglichmachung und Verbreitung der von Ihnen in oder durch die Services übermittelten, eingestellten oder dargestellten Inhalte.

Nicht nur aus diesem Grund seien hier noch ein paar Alternativen zu den beiden oben aufgeführten Diensten genannt:

Mit Neximage gibt es inzwischen sogar einen Online-Bitmap-Editor.