Szenario: Biblioleaks in der Biomedizin

Im Journal of Medical Internet Research entwerfen Adam G. Dunn, Enrico Coiera und Kenneth D. Mandl ein Szenario, im dem das wissenschaftliche Publikationswesen dasselbe Schickal erleidet wie andere Branchen der inhaltevertreibenden Industrien: die Kunden organisieren sich ihren eigenen illegalen Zugang.

Is Biblioleaks Inevitable? – Journal of Medical Internet Research. Apr 2014; 16(4): e112.


In 2014, the vast majority of published biomedical research is still hidden behind paywalls rather than open access. For more than a decade, similar restrictions over other digitally available content have engendered illegal activity. Music file sharing became rampant in the late 1990s as communities formed around new ways to share. The frequency and scale of cyber-attacks against commercial and government interests has increased dramatically. Massive troves of classified government documents have become public through the actions of a few. Yet we have not seen significant growth in the illegal sharing of peer-reviewed academic articles. Should we truly expect that biomedical publishing is somehow at less risk than other content-generating industries? What of the larger threat—a “Biblioleaks” event—a database breach and public leak of the substantial archives of biomedical literature? As the expectation that all research should be available to everyone becomes the norm for a younger generation of researchers and the broader community, the motivations for such a leak are likely to grow. We explore the feasibility and consequences of a Biblioleaks event for researchers, journals, publishers, and the broader communities of doctors and the patients they serve.

Ich halte das Szenario einer massenhaften Veröffentlichung – wie die Autoren – für wenig wahrscheinlich. Vor allem, da die meisten Wissenschaftler, die Interesse an so etwas hätten, ein gewaltiges Karriererisiko eingehen würden. Und die wenigsten dieser Wissenschaftler schuften jahrelang, um sich dann massive Klagen einzuhandeln, solange es Alternativen wie die Fernleihe gibt. Die ist zwar etwas langsamer als ein sofortiger Download, aber eindeutig geeigneter für risiko-averse Wissenschaftler.

Via Pubmed Central ist der Text des Artikels auch frei verfügbar.

Trend Nr. 1 für 2011: Peer-to-Peer (P2P)

Teil der Operation Frühjahrsputz, in deren Verlauf angefangene und nie beendete Postings einfach so veröffentlicht werden. Dieses Posting finde ich aus bloghistorischer Sicht besonders interessant. Ich lag übrigens mächtig daneben mit meiner Prognose.

Mit meiner Trend-Ansage für 2010 lag ich einigermaßen richtig. Linked (Open) Data ist wirklich ein Dauerthema geworden. Immer noch auf dem aufsteigenden Ast, aber inzwischen im bibliothekarischen Bewusstsein verankert. Auch beim anderen prophezeiten Trend, mobile Bibliotheksanwendungen, ist noch Luft nach oben. Thema waren sie jedoch auch jeden Fall. Daher wage ich es, auch für das nächste Jahr eine Prognose abzugeben.

Trend Nr. 1 für 2011 werden Peer-to-Peer-Anwendungen (P2P) verschiedenster Art sein. Verschiedene Vorgänge der jüngeren Vergangenheit haben auch Laien drastisch vorgeführt, wie fragil digitale Kommunikation ist. In Ägypten wurde das Netz kurzerhand abgeschaltet

Zentral Dezentral
Facebook Diaspora
Google Yacy


PS: Der erste Monat des Jahres ist schon wieder herum, und dieses Posting harrte immer noch der Fertigstellung. Daher ist es nun in nicht so ausführlicher Form wie ursprünglich geplant.

Greg Maxwell vs. Paywalls

JSTOR die Zweite. Nach der Anklage gegen Aaron Swartz und in direkter Reaktion darauf hat Greg Maxwell 18.592 bisher von JSTOR hinter Schloss und Riegel gehaltene wissenschaftliche Dokumente in Pirate Bay, den BitTorrent-Tracker der schwedischen Piratenpartei, eingestellt. Er erläutert dies in einem ausführlichen Begleitschreiben (hier gekürzt):

Limited access to the documents here is typically sold for $19 USD per article, though some of the older ones are available as cheaply as $8. Purchasing access to this collection one article at a time would cost hundreds of thousands of dollars.


Academic publishing is an odd systemΓΓé¼ΓÇ¥the authors [sic!] are not paid for their writing, nor are the peer reviewers (they’re just more unpaid academics), and in some fields even the journal editors are unpaid. Sometimes the authors must even pay the publishers.

And yet scientific publications are some of the most outrageously expensive pieces of literature you can buy. In the past, the high access fees supported the costly mechanical reproduction of niche paper journals, but online distribution has mostly made this function obsolete.

As far as I can tell, the money paid for access today serves little significant purpose except to perpetuate dead business models. The “publish or perish” pressure in academia gives the authors an impossibly weak negotiating position, and the existing system has enormous inertia.

Those with the most power to change the system–the long-tenured luminary scholars whose works give legitimacy and prestige to the journals, rather than the other way around–are the least impacted by its failures. They are supported by institutions who invisibly provide access to all of the resources they need. And as the journals depend on them, they may ask for alterations to the standard contract without risking their career on the loss of a publication offer. Many don’t even realize the extent to
which academic work is inaccessible to the general public, nor do they realize what sort of work is being done outside universities that would benefit by it.

Large publishers are now able to purchase the political clout needed to abuse the narrow commercial scope of copyright protection, extending it to completely inapplicable areas: slavish reproductions of historic documents and art, for example, and exploiting the labors of unpaid scientists. They’re even able to make the taxpayers pay for their attacks on free society by pursuing criminal prosecution (copyright has classically been a civil matter) and by burdening public institutions with outrageous subscription fees.

Copyright is a legal fiction representing a narrow compromise: we give up some of our natural right to exchange information in exchange for creating an economic incentive to author, so that we may all enjoy more works. When publishers abuse the system to prop up their existence, when they misrepresent the extent of copyright coverage, when they use threats of frivolous litigation to suppress the dissemination of publicly owned works, they are stealing from everyone else.


The documents are part of the shared heritage of all mankind, and are rightfully in the public domain, but they are not available freely. Instead the articles are available at $19 each–for one month’s viewing, by one person, on one computer. It’s a steal. From you.


The liberal dissemination of knowledge is essential to scientific inquiry. More than in any other area, the application of restrictive copyright is inappropriate for academic works: there is no sticky question of how to pay authors or reviewers, as the publishers are already not paying them. And unlike ‘mere’ works of entertainment, liberal access to scientific work impacts the well-being of all mankind. Our continued survival may even depend on it.

Greg Maxwell würde sich freuen, wenn er von Erkenntnissen hört, die durch den befreiten Textkorpus entstanden sind. Und er hat sich dazu entschieden, dies Veröffentlichung unter seinem Namen zu machen, damit sie nicht Aaron Swartz angelastet werden kann.

Weitere Infos:

Bild: CC: BY-NC-ND von Helen K

YaCy als Open-Access-Suchmaschine

Im letzten Herbst wünschte ich mir eine dezentrale Alternative zum OAIster. Der YaCy-Entwickler Michael Christen fand die Thematik spannend und teilte mir mit, dass YaCy intern auch schon einige Vorraussetzungen beherrscht, um bibliographische Daten zu bearbeiten, unter anderem den Umgang mit Dublin Core. Im Bibcamp-Blog schrieb ich im Oktober recht optimistisch:

Ein interessante Frage stellt sich aktuell durch die drohende OAIster-Wegschließung: Wie kann man man eine dezentrale Alternative zu OAIster schaffen? Bis zum Bibcamp wird vermutlich ein YaCy-Prototyp für die Suche in Dokumentenservern stehen. Das Bibcamp bietet eine hervorragende Gelegenheit, diesen Prototypen auf Herz und Nieren zu prüfen und vielleicht sogar direkt vor Ort zu verbessern!

Der Prototyp ist da, und werden mehrere YaCysten beim Bibcamp sein, die sicherlich gerne über bibliothekarische Anwendungen von YaCy diskutieren würden. In einer indischen Bibliothek wird es schon für eine digitale Bibliothek eingesetzt, die mehr als 2TB Audio, Video und E-Books und eine HTML-Oberfläche mit über 800.000 Seiten umfasst. Denkbar und sinnvoll wäre eine Anwendung zum Beispiel in Virtuellen Fachbibliotheken. Wenn man sie schon mit viel Aufwand konstruiert und mühsam Webquellen sammelt, könnte man den Index auch anderen zur Verfügung stellen. Und genau dies ist mit YaCy möglich.

Ich habe die neueste Version übrigens mal testweise auf meinem Desktoprechner installiert und innerhalb kürzester Zeit 20 Repositories mit bis zu 35.000 Dokumenten indexiert. Geht ganz einfach, und ist hier erklärt. Für einen Prototypen sehr respektabel, wie ich finde.

Dezentrale OAIster-Alternative mit YaCy

In einer Mail an NGC4LIB, einer Mailingliste, in der das Ende des OAIster derzeit heftig debattiert wird, habe ich vorgeschlagen eine dezentrale Alternative mit YaCy aufzubauen.

A lot of people don’t seem to be very happy with OCLCs decision on OAIster. There’s a general problem with centralized services like OAIster. Too much can happen to that single service, and if it’s down it’s down. That’s why I thought about a distributed OA search for some time now and the OAIster decision gave reason to me to ask the YaCy [1] developer Michael Christen if YaCy could be used for such a search. To make it short: he’s quite optimistic.

Right now YaCy is not able to import data via OAI-PMH but that should be possible to realize. Of course there’s still some work to be done, for example the proper implementation of dublin core. On page 2 of (in German) you can find an example of the current possibilities of YaCy with dublin core. BTW: It’s SRU compliant.

We’d like to set up a Yacy instance as a proof of concept. In future it should be possible to cluster some of these instances to a large network of open access search engines. Just to mention the name of this mailing list: kind of a “next generation catalog for libraries”, I guess.

Opinions, anyone? Do you think a distributed OA search could be useful?

Kritik, Vorschläge und andere Äußerungen dazu bitte in die Mailingliste oder hier in die Kommentare. Gerne auch direkt per Mail. Hätte solch ein Projekt Zukunft? Was wären die Anforderungen?

US Digital Millennium Copyright Act beeinflusst Suchmaschinenergebnisse

Sucht man via Google nach “abbyy finereader 9.0 professional edition”, bekommt man folgendes zu lesen:

Infolge einer Beschwerde, die hinsichtlich des US Digital Millennium Copyright Act (amerikanisches Datenschutzgesetz) bei uns eingegangen ist, haben wir 1 Ergebnis(se) aus dieser Seite entfernt. Sie können die DMCA-Beschwerde, die dieser Entfernung zugrunde liegt, unter lesen.

Klickt man den angegebenen Link an, erfährt man auch, worum es geht: Seiten, deren Domain Begriffe wie “serial”, “crack” oder auch “torrent” enthalten.

Inetbib 2008: Evolution des Internets

Eröffnungsvortrag: Zur Evolution der Internetdienste von Prof. Dr. Phuoc Tran-Gia Prof. Dr. Phuoc Tran-Gia (Universität Würzburg).

Tran-Gia berichtet über die Grenzen des internet protocol, über Skalierungsprobleme und den “drohenden Kollaps” des Internets. Er prognostiziert eine evolutionäre Weiterentwicklung des Internets, da ein Neuanfang nach tabula rasa ohne alten Ballast zwar wünschenswert, aber nicht durchsetzbar ist.

Trends in Schlagworten: Multi network services, Edge based Intelligence & Platforms, Service Discovery Engine.

Die Entwicklung geht so schnell, dass meine Vorstellung nicht reicht, um Dinge vorauszusagen.

P2P sorgt für ca. zwei Drittel der Netzauslastung.

Kleine Zwischenbemerkung: Neben mir wird eifrig getwittert.

P2P, besonders BitTorrent ist jetzt schon unverzichtbar für die Verteilung großer Datenmengen, Beispiel neue Linuxversionen.

Anwendungen entstehen am Netzrand

Quality of service: Wie schnell finde ich ein Buch im Katalog? Messbare Qualität.
Quality of experience: Wie zufrieden bin ich mit einer Dienstleistung? Subjektive Empfindung.

Höhere Dienstgüte durch granulare Dienste.

Sehr guter Einführungsvortrag!