Autorengebühren aus DOAJ nach Ländern

Wer wissen möchte, in welchem Land welches Open-Access-Finanzierungsmodell vorherrscht – vorbehaltlich der Korrektheit und Aktualität der DOAJ-Daten) – kann einfach folgendes R-Skript nutzen:

library(plyr)
doaj <- read.csv("http://doaj.org/csv", sep=",") ddply(doaj, .(Country, Publication.fee), summarise, freq=length(Publication.fee))

Output für United Kingdom:
United Kingdom CON 15
United Kingdom N 205
United Kingdom NY 4
United Kingdom Y 392

Germany:
92 Germany CON 4
93 Germany N 234
94 Germany NY 4
95 Germany Y 98

"Publication charges":
N: No charges
Y: Has charges
NY: No info available
CON: : Conditional charges

Ein Beispiel für Conditional charges sind die Bedingungen des Journals Ethics & Global Politics.

Lizenzen per OAI-PMH abfragen

Wer herausfinden möchte, welche Lizenzen auf einem Repository verwendet werden, kann dafür das R-Paket OAIHarvester nutzen. Das folgende Skript ist vielleicht nicht elegant, aber es funktioniert zumindest bei OPUS3-Repositories.

library("OAIHarvester")

# Get OAI-Data. Three repositories to choose from. Just uncomment.
# baseurl <- "http://opus.bsz-bw.de/fhhv/oai2/oai2.php"
# baseurl <- "http://edoc.bbaw.de/oai2/oai2.php"
# baseurl <- "http://opus.kobv.de/euv/oai2/oai2.php"

x   <- oaih_harvest(baseurl,
             prefix = "oai_dc", from = NULL, until = NULL, set = NULL,
             transform = TRUE)

sets <- oaih_list_sets(baseurl)

x <- oaih_list_records(baseurl)
## Drop deleted records and extract the metadata.
m <- x[, "metadata"]
m <- oaih_transform(m[sapply(m, length) > 0L])

## Transform data to data.frame
o <- as.data.frame(m)

# Convert and table:
liccount <- as.character(as.vector(o$rights))
table(liccount)

Das OAIHarvester-Paket bietet noch deutlich mehr. Dies ist nur eine von vielen möglichen und nützlichen Anwendungen.

R 3.0

Via Heise:

Die Programmiersprache R, die als Softwareumgebung speziell für statistische Berechnungen und Graphen ausgelegt ist, ist in Version 3.0 erschienen. Zentrale Neuerung der unter dem Codenamen Masked Marvel entwickelten Sprachversion, die den ersten Versionssprung seit achteinhalb Jahren darstellt, sind die Unterstützung für 64-Bit-Integer-Werte auf allen R-Plattformen. Für R 3.0 bedeutet das insbesondere die Einführung langer Vektoren mit mehr als 231 Elementen auf 64-Bit-Systemen.

Eine Liste mit vielen Änderungen ist auf der Mailingliste R-Announce veröffentlicht worden.

Musterbeispiel: Warum Open Data?

Im American Economic Review wurde 2010 eine anscheinend vielbeachtete Studie über “Growth in a Time of Debt” publiziert. 1) Reinhart, Carmen M., and Kenneth S. Rogoff. 2010. “Growth in a Time of Debt.” American Economic Review, 100(2): 573-78.
http://dx.doi.org/10.1257/aer.100.2.573
Die Washington Post machte nun darauf aufmerksam, dass diese Studie nicht nur in der Austeritätsdebatte eine große Rolle gespielt habe, sondern auch methodisch nicht einwandfrei sei. In der Berechnung (in Excel), die der Studie zugrunde liegt, seien Berechnungsfehler begangen worden.

This discrepancy wasn’t caught earlier because Reinhart and Rogoff hadn’t made their full underlying data public. They only shared their spreadsheet with the Herndon, Ash and Pollin after the latter three tried to replicate the initial results and failed.

Hier geht es zur erwähnten Studie von Reinhart und Rogoff. Die Daten werden dort gleich zum Download angeboten, ebenso der R-Code, mit dem die zweite Auswertung gemacht wurde. Wer nun dort nach Fehlern suchen möchte, kann dies ohne Umstände machen und muss nicht den Studienautoren hinterherbetteln.

PS: Bei diesem Beispiel geht es mir nicht darum, ob sich durch Datenverfügbarkeit nun gegenteilige ökonomische Schlüsse ziehen lassen, sondern einzig um die Reproduzierbarkeit von Wissenschaft.

References   [ + ]

1. Reinhart, Carmen M., and Kenneth S. Rogoff. 2010. “Growth in a Time of Debt.” American Economic Review, 100(2): 573-78.
http://dx.doi.org/10.1257/aer.100.2.573

Reproduzierte Psychologie

If you’re a psychologist, the news has to make you a little nervous, beginnt ein Artikel im Chronicle of Higher Education. Besonders PsychologInnen, die 2008 in einem der Journals “Psychological Science”, “Journal of Personality and Social Psychology” oder im “Journal of Experimental Psychology: Learning, Memory, and Cognition” veröffentlicht haben. Denn deren Werk wird vom Reproducibility Project unter die Lupe genommen, genauer gesagt: reproduziert.

Wer helfen möchte, kann sich beteiligen:

The Reproducibility Project is open to anyone who is interested in the reproducibility of psychological science or in participating in a large-scale, open science project. Contributors receive authorship on project reports (see Executive Summary for details). Ways to contribute include:

  • Conducting or helping with a replication study
  • Helping with statistical analyses or power / sample size calculations
  • Reviewing and contributing to replication protocols or reports
  • Coding published studies (extracting hypotheses, sample characteristics, and requirements for replication)
  • Programming tasks such as creating stimulus presentation scripts or automated data processing

If you’d like to get involved, fill out our new contributor survey and we’ll get in touch with you about opportunities that are a match for your skills and resources. We welcome contributions from students and citizen scientists as well as researchers and scientific professionals. If you have any questions, feel free to contact our volunteer coordinator at reproducibilityproject@gmail.com.

Voraussetzung für Reproduzierbarkeit sind neben sauber dokumentierten Versuchen auch die Verfügbarkeit der Mittel zur Reproduktion.

  • Open Access: Wer den Artikel nicht lesen kann, kann Versuche auch nicht reproduzieren
  • Open Data: Wer die Rohdaten nicht hat, auch nicht.
  • Open Source: Wo Software eingesetzt wird, sollte diese frei verfügbar sein. Zum Beispiel Octave statt MatLab (aktuell € 500 für die Basisversion, wenn ich die Preistabelle richtig verstehe) oder R statt SPSS (wirklich über € 2000?). Darunter fallen dann auch die konkreten Skripte und Modelle.

Ergo (natürlich verkürzt): Reproduzierbarkeit = Open Access + Open Data + Open Source

Blogs zur Informationsvisualisierung

Es gibt Hunderte von Blogs, die sich mit Daten, Informationen und deren Visualisierung beschäftigen. Hier eine kleine Auswahl von Blogs, die mir seit langem besonders gut gefallen.

information aesthetics.Where form follows data.

Beispielposting: OrgOrgChart: The Dynamic Organization of an Organization

FloatingSheep

Sehr viele Visualisierungen rund um Twitter, oft auch Auftragsarbeiten für den Guardian.
Beispielposting: Mapping Racist Tweets in Response to President Obama’s Re-election

Flowing Data

Ach, wo soll man anfangen? Zwei Beispiele sollen reichen.
Beispielposting 1: Getting Started with Charts in R
Beispielposting 2: An Ideal Bookshelf

Datavisualization.ch

Datavisualization.ch is the premier news and knowledge resource for data visualization and infographics. Leider wird dort recht selten gebloggt. Eine Perle ist sicherlich A Carefully Selected List of Recommended Tools.

The Functional Art

Alberto Cairo über Visualisierungen, oft mit einem Fokus auf Datenjournalismus.
Beispielposting: Radar graphs: Avoid them (99.9% of the time)

Cairo bietet übrigens auch einen MOOC über Introduction to Infographics and Data Visualization an, der am 12. Januar 2013 startet.

Information is Beautiful

Eins der prominentesten Blogs dieser Sparte, leider mit recht wenig Postings in den letzten Monaten. Dort vergibt man vor einigen Monaten den Information is Beautiful Award.

Einige dieser Blogs und einige weitere hat Joshua Kitlas letztes Jahr schon zu den 25 Must-Follow Information, Data and Visualization Blogs and RSS Feeds for the Data Professional zusammengestellt.

#lib2011: Live-Visualisierung mit OpenCPU & R

Jemand (Najko Jahn?) hat im Libreas-Blog kürzlich vorgestellt, wie man OpenCPU nutzen kann, um sich ein eigenes Tweet-Archiv anzulegen und dies auch gleich zu visualisieren. Er/sie tat dies am Beispiel #oebt11. Hier ein anderes Beispiel, die aktuell durchgeführte Library 2.011:

CSV dazu:
http://beta1.opencpu.org/R/call/store:tmp/8f81a308a4f8898f0aff6ba41bead5e4/csv?tag=”lib2011″

Einige Tweets sind tatsächlich mit dem Datum 26. – 30.11. versehen. Wo der Fehler liegt, vermag ich nicht zu sagen.

Update, siehe Kommentare:

SOAP-Daten unter CC0 zum Download

Wie angekündigt sind die Rohdaten des SOAP-Projekts (Study of Open Access Publishing) nun unter CC0 frei verfügbar.

  • Ankündigung auf der Projektseite mit Downloadmöglichkeiten (CSV, XLS. Der Downloadlink für XLSX ist defekt 1) Wieder einmal ein Hinweis darauf, dass Shortlinks nirgendwo verwendet werden sollten, wo nicht wirklich Zeichen eingespart werden müssen! Das Data Manual wird hier verlinkt, sobald es nicht nur via Shortlink verfügbar ist. )
  • Download hier als CSV (ca. 25 MB)
  • Download hier als ODS (ca. 4,5 MB) 2) Kann mir jemand erklären, warum die ODS-Datei nur knapp ein Fünftel der Größe der CSV-Datei hat? Liegt es daran, dass mehrfach auftretende Werte in der CSV-Datei jedes einzelne Mal in voller Länge erwähnt werden müssen?

Nun ist der Weg frei für Untersuchungen und Stichproben jeglicher Art. Als kleines Beispiel habe ich einmal die Zustimmung der Wissenschaftler, die sich hauptsächlich den Historical and Philosophical Studies zugehörig fühlen, zur These “OA articles are likely to be read and cited more often than those not OA” untersucht.

Strongly Agree 315
Agree 449
Neither agree nor disagree 265
Disagree 73
Strongly disagree 10
Keine Antwort 70
Summe 1182

Dies ist Stoff für Dutzende von Abschlußarbeiten und hervorragendes Argumentationsmaterial für Bibliothekswesen!

References   [ + ]

1. Wieder einmal ein Hinweis darauf, dass Shortlinks nirgendwo verwendet werden sollten, wo nicht wirklich Zeichen eingespart werden müssen! Das Data Manual wird hier verlinkt, sobald es nicht nur via Shortlink verfügbar ist.
2. Kann mir jemand erklären, warum die ODS-Datei nur knapp ein Fünftel der Größe der CSV-Datei hat? Liegt es daran, dass mehrfach auftretende Werte in der CSV-Datei jedes einzelne Mal in voller Länge erwähnt werden müssen?