Pflege und Aufzucht wissenschaftlicher Daten

In der zu Recht sehr beliebten PLoS-Reihe “Ten simple rules …” hat ein Autorenkollektiv gerade “Ten Simple Rules for the Care and Feeding of Scientific Data” vorgelegt, die da lauten:

Rule 1. Love Your Data, and Help Others Love It, Too
Rule 2. Share Your Data Online, with a Permanent Identifier
Rule 3. Conduct Science with a Particular Level of Reuse in Mind
Rule 4. Publish Workflow as Context
Rule 5. Link Your Data to Your Publications as Often as Possible
Rule 6. Publish Your Code (Even the Small Bits)
Rule 7. State How You Want to Get Credit
Rule 8. Foster and Use Data Repositories
Rule 9. Reward Colleagues Who Share Their Data Properly
Rule 10. Be a Booster for Data Science

Citation: Goodman A, Pepe A, Blocker AW, Borgman CL, Cranmer K, et al. (2014) Ten Simple Rules for the Care and Feeding of Scientific Data. PLoS Comput Biol 10(4): e1003542. doi: 10.1371/journal.pcbi.1003542

Drei DFG-Projekte zur "Neuausrichtung überregionaler Informationsservices" bewilligt

Drei DFG-Projekte zur Ausschreibung “Neuausrichtung überregionaler Informationsservices” (PDF) wurden bewilligt.

Im Themenfeld 1 „Bibliotheksdateninfrastruktur und Lokale Systeme“ überzeugte das Konzept „CIB“ des hessischen Bibliotheksinformationssystems (HEBIS), des Bibliotheksverbunds Bayern (BVB) und des Kooperativen Bibliotheksverbunds Berlin-Brandenburg, das die Entwicklung einer cloudbasierten Infrastruktur für Bibliotheksdaten mit der verstärkten Anpassung und Einbindung bestehender Strukturen in internationale Nachweissysteme vorsieht.

Im Themenfeld 3 „Electronic Resource Management“ befürwortete der Hauptausschuss die Konzeption zum Electronic Resource Management System „ERMS“ des Hochschulbibliothekszentrums des Landes NRW (hbz), der Universitätsbibliothek Frankfurt am Main, der Universitätsbibliothek Freiburg und der Verbundzentrale des Gemeinsamen Bibliotheksverbundes (GBV). Dieses Projekt ist auf die Entwicklung eines bundesweit einsetzbaren, mandantenfähigen Systems ausgerichtet, das das Management elektronischer Ressourcen auf allen Ebenen (lokal, regional, national) unterstützt und die Bibliotheken von den entsprechenden Verwaltungsaufgaben entlastet.

Von den im Themenfeld 4 „Forschungsnahe Informationsinfrastruktur“ vorgelegten Konzepten konnte das Projekt „RADAR“ den Hauptausschuss überzeugen, das den Aufbau eines bislang fehlenden Datenzentrums als Basisdienstleistung zur Publikation und Archivierung von Forschungsdaten anstrebt.

Mehr Infos gibt es in der Mitteilung der DGF.

[via @nesnu]

TIB/UB eröffnet Open Science Lab

Lambert Heller im Blog der TIB/UB Hannover:

An der TIB Hannover nimmt 2013 ein neues Team seine Arbeit auf, das Open Science Lab. Hier sollen neuartige Webanwendungen für ForscherInnen in enger Abstimmung mit überregionalen Benutzer-Communities erprobt und (weiter-)entwickelt werden. Alle Ergebnisse sollen schnell öffentlich zugänglich gemacht werden, auch dann, wenn es sich um vorläufige oder experimentelle Anwendungen handelt. Das Lab strebt vielfältige Kooperationen mit anderen Interessierten (einzelnen Softwareentwicklern, Verlagen, Bibliotheken etc.) an und will Drittmittel für neue Entwicklungen einwerben.

Untersucht werden sollen u.a. der Umgang mit publizierten Rohdaten oder alternative Publikationsarten. Die Ergebnisse sollen konsequenterweise unter freien Lizenzen veröffentlicht werden.

Imeji: "Publish Your Scientific Media Data"

Aus einer Pressemitteilung der Max Planck Digital Library:

Die Software imeji erzeugt aus wissenschaftlichen Mediendaten wie z.B. Fotografien, Mikroskop-Aufnahmen oder Grafiken zitierfähige digitale Forschungsobjekte. Eine erste Version dieser Software hat die Max Planck Digital Library nun für Forschungseinrichtungen, aber auch andere Interessierte online gestellt. Als Open-Source Software ist imeji frei verfügbar und kann nach Belieben nachgenutzt werden.

Die Software selbst gibt es hier. Auf imeji.org steht auch eine Demoversion zur Besichtigung zur Verfügung.

Lizenzinformationen zu den einzelnen Objekten habe ich bei ein paar Stichproben (z.B. bei diesem Bild) nicht gefunden.

SOAP-Daten unter CC0 zum Download

Wie angekündigt sind die Rohdaten des SOAP-Projekts (Study of Open Access Publishing) nun unter CC0 frei verfügbar.

  • Ankündigung auf der Projektseite mit Downloadmöglichkeiten (CSV, XLS. Der Downloadlink für XLSX ist defekt 1) Wieder einmal ein Hinweis darauf, dass Shortlinks nirgendwo verwendet werden sollten, wo nicht wirklich Zeichen eingespart werden müssen! Das Data Manual wird hier verlinkt, sobald es nicht nur via Shortlink verfügbar ist. )
  • Download hier als CSV (ca. 25 MB)
  • Download hier als ODS (ca. 4,5 MB) 2) Kann mir jemand erklären, warum die ODS-Datei nur knapp ein Fünftel der Größe der CSV-Datei hat? Liegt es daran, dass mehrfach auftretende Werte in der CSV-Datei jedes einzelne Mal in voller Länge erwähnt werden müssen?

Nun ist der Weg frei für Untersuchungen und Stichproben jeglicher Art. Als kleines Beispiel habe ich einmal die Zustimmung der Wissenschaftler, die sich hauptsächlich den Historical and Philosophical Studies zugehörig fühlen, zur These “OA articles are likely to be read and cited more often than those not OA” untersucht.

Strongly Agree 315
Agree 449
Neither agree nor disagree 265
Disagree 73
Strongly disagree 10
Keine Antwort 70
Summe 1182

Dies ist Stoff für Dutzende von Abschlußarbeiten und hervorragendes Argumentationsmaterial für Bibliothekswesen!

References   [ + ]

1. Wieder einmal ein Hinweis darauf, dass Shortlinks nirgendwo verwendet werden sollten, wo nicht wirklich Zeichen eingespart werden müssen! Das Data Manual wird hier verlinkt, sobald es nicht nur via Shortlink verfügbar ist.
2. Kann mir jemand erklären, warum die ODS-Datei nur knapp ein Fünftel der Größe der CSV-Datei hat? Liegt es daran, dass mehrfach auftretende Werte in der CSV-Datei jedes einzelne Mal in voller Länge erwähnt werden müssen?

Geheimwissenschaft Astronomie

Einen spannenden Fall von fehlgeschlagener Geheimnistuerei hat Jean-Claude Bradley im Blog Useful Chemistry beschrieben, die er wiederum Alan Boyles Buch The case for Pluto entnahm. Hintergrund ist die Entdeckung des Zwergplaneten Haumea. Die Kurzfassung der Geschichte ist in Wikipedia dokumentiert:

Mike Brown, Chad Trujillo und David Rabinowitz vom California Institute of Technology fanden das Objekt am 28. Dezember 2004 am Palomar-Observatorium. Die Arbeitsgruppe um Mike Brown benutzte für das Objekt die inoffizielle Arbeitsbezeichnung „Santa“. Wegen der Veröffentlichung der Entdeckung von Haumea (ex. 2003 EL61) durch die spanischen Astronomen gab die Gruppe um Brown die Entdeckung der beiden noch größeren transneptunischen Objekte (136199) Eris (ex. 2003 UB313, Xena) und (136472) Makemake (ex. 2005 FY9) nur wenige Stunden später auf einer Pressekonferenz bekannt.

Brown und seine Gruppe erkannten zunächst Ortiz et al. als Erstentdecker von (136108) Haumea an, bis sich herausstellte, dass Ortiz et al. auf öffentlich im Internet zugängliche Teleskop-Logdaten der Gruppe um Brown zugegriffen hatte, bevor die Gruppe um Ortiz die Entdeckung bekannt machte. Während der Vorwurf im Raum stand, dass die spanische Gruppe das Objekt erst mit Hilfe dieser Daten auf ihren Aufnahmen aus dem Jahr 2003 aufgefunden hat, beteuerte Ortiz, nur überprüft zu haben, ob es sich bei dem unter dem Arbeitsnamen K40506A angekündigten Objekt von Brown et. al. um den gleichen Himmelskörper gehandelt habe, den seine Gruppe unabhängig davon gefunden hatte. Browns Gruppe warf daraufhin der Gruppe um Ortiz einen Verstoß gegen die Regeln der Wissenschaftsethik vor und verlangte vom Minor Planet Center (MPC), Ortiz et al. den Status der Erstentdecker abzuerkennen.

Die Kontroverse geht darauf zurück, dass nach den gültigen Regeln der Internationalen Astronomischen Union die Entdeckung eines Asteroiden oder Zwergplaneten jenen Beobachtern zugesprochen wird, die als erste genügend Positionsmessungen an das MPC übermitteln, um die Umlaufbahn des Objekts im Sonnensystem hinreichend genau zu bestimmen. Zwar hat die Gruppe um Brown Haumea bereits Ende 2004 gefunden, aber die Entdeckung geheim gehalten. Die Gruppe um Ortiz hingegen übermittelte ihre Beobachtungen am 28. Juli 2005 an das MPC. Das Sierra Nevada Observatorium wird daher vom MPC als Entdecker angeführt.

Brown hat die Entdeckung geheim gehalten, weil er die Ergebnisse auf einer Konferenz im September 2005 präsentieren wollte. Hätte er seine Entdeckung sofort veröffentlicht, hätte er nicht nur Ruhm und Ehre alleine eingeheimst, sondern auch die Entwicklung seiner Disziplin beschleunigt.

Aktuell ist der Fall des Kepler-Teams, das Daten zurückhalten möchte, um sie selbst auszuwerten. Dazu in der NY Times: In the Hunt for Planets, Who Owns the Data?

But a lot of attention has been paid in astronomical circles over the past few months to what the Kepler team will not be saying. By agreement with NASA, the team is holding back data on its 400 brightest and best planet candidates, which the astronomers intend to observe themselves over a busy summer.

Basierend auf Nature News: Telescope team may be allowed to sit on exoplanet data:

Kepler, the NASA mission manoeuvring to spot the first Earth-like extrasolar planet, is supposed to publicly release data in June for the 156,000 stars at which the orbiting telescope stares. But on Monday a NASA advisory panel recommended that Kepler be allowed to censor 400 “objects of interest” — presumably good planet candidates — until February 2011, giving the mission team more time to firm up discoveries, rule out false positives and publish. If enacted, the new policy would represent a selective editing of data on the basis of its science content, rather than its quality — unprecedented for such NASA missions.

Passend dazu aus den Grundsätzen zum Umgang mit Forschungsdaten der Allianz der deutschen Wissenschaftsorganisationen vom 24. Juni 2010:

Sicherung und Zugänglichkeit In Übereinstimmung mit wichtigen internationalen Organisationen auf dem Gebiet der Förderung und Durchführung von Forschungsaufgaben([1]) unterstützt die Allianz die langfristige Sicherung und den grundsätzlich offenen Zugang zu Daten aus öffentlich geförderter Forschung.

[via Neil Saunders]

Google lässt Wissenschaftler im Stich

Im September 2007 gab Google bekannt, dass wissenschaftliche Daten in Zukunft gratis gehosted werden können, sofern die Eigentümer die Daten frei (public domain) zur Verfügung stellen. Zu diesem Zweck sollten per Post Festplatten verschickt werden, deren Inhalt – wissenschaftliche Terabytes – von Google dann kostenlos gehosted wird. Details in dieser Präsentation:

Nun bekommt Google kalte Füße und stampft das Projekt ein, bevor es überhaupt offiziell eröffnet wurde. Nature Blog:

Initially scheduled for public release around last month, Google pushed the launch date back to January 2009. Since then Google has been making economies in the face of the financial crisis, and the non-profit Google Research Datasets project was reviewed. Late Wednesday evening, a spokesperson wrote me to say that “We’ve been evaluating our resources to ensure they are used in the most effective possible way to bring maximum value to our users. Unfortunately, we’ve decided not to launch Google Research Datasets publicly, but to instead focus our efforts on other activities such as Google Scholar, our Research Programs, and publishing papers about research here at Google.”

Bislang wurden anscheinend nur Testdaten bearbeitet, glücklicherweise noch keine “richtigen” Daten. Dies ist ein Präzedenzfall bezüglich der Zuverlässigkeit Googles im Ernstfall. Wired:

“‘It’s a sad story if it’s true,” wrote Attila Csordas, a stem cell biologist and author of Partial Immortalization who recently moved to Hungary from Tulane University, in an email to Wired.com. “Assuming it is true that might mean that Google is still a couple years away from directly helping the life sciences (on an infrastructural level).”

Other scientists remained hopeful that the service might return in better times.

Selbst wenn der Dienst wieder aufleben sollte, bleiben nun doch ernste Zweifel an dessen Zuverlässigkeit. Eine Alternative kann sein, die Daten in P2P-Netze zu stellen und an mehreren Standorten zu verteilen. Universitäre Rechenzentren sollten eigentlich Kapazitäten für solche Projekte haben oder zumindest schaffen können. Das Outsourcen der Archivierung und Verteilung freier wissenschaftlicher Daten ist meines Erachtens nur eine Notlösung.