Internet Archive betreibt purl.org

Persistente URIs sind ein zentrales Problem bei der Veröffentlichung von Ontologien in Linked-Data-Kontexten. Der meistgenutzte Dienst war bislang purl.org. Purl steht für Persistent Uniform Resource Locator. Der Dienst wurde von OCLC betrieben und existiert schon seit 1995. In letzter Zeit war es aber nicht möglich, neue Accounts anzulegen. Es gab daher Überlegungen, einen Alternativdienst aufzubauen: w3id.org. [1] Vgl. Permanent identifiers and vocabulary publication: purl.org and w3id 

W3id.org baut dabei auf Github auf. Dies hat den Vorteil, dass die Hemmschwelle recht niedrig ist, Github ist schließlich inzwischen nicht nur in Enwicklerkreisen ein gängiges Werkzeug. Der Nachteil dieser Lösung ist, dass man sich unnötigerweise von einem weiteren Dienst abhängig macht. Github ist ein kommerzieller Anbieter. Streicht dieser die Segel oder ändert er seine Geschäftsbedingungen, steht w3id.org vor großen Schwierigkeiten.

Langer Rede, kurzer Sinn: Das Internet Archive betreibt Purl.org seit September, wie im dortigen Blog bekannt gegeben wurde. Der Dienst kann also wieder genutzt werden.

Jetzt für Archive.org spenden! JETZT!

Weil es eilt und weil es sinnvoll ist, hier gleich noch eine Meldung zum Internet Archive:

You’ve heard about the fire that destroyed one of our thirty-two scanning centers last month. But here’s what you may not have heard: the good news.

An incredibly generous anonymous donor is helping us rebuild—and grow—by matching every donation made before 2014 three-to-one. That means your $50 donation results in a $200 contribution.

We are raising $1,000,000 before the end of the year to fund more machines and five petabytes—that’s five thousand terabytes!—of storage.

Noch einmal auf Deutsch: Im Internet Archive hat’s gebrannt, es ist großer Schaden entstanden. Nun hat sich ein anonymer Gönner bereit erklärt, zu jeder Spende, die noch 2013 erfolgt, das Dreifache draufzugeben. So wird aus einer 50-Dollar-Spende eine 200-Dollar-Spende.

Auf geht’s zum Spenden! Keine Ausreden! Immerhin kann man da auch Mario Bros spielen. Und sagt das alle ganz schnell weiter!

The Internet Archive Console Living Room

Das Internet Archive ist nun auch im Softwarebereich aktiv und hat in den letzten Tagen ein paar Konsolenklassiker veröffentlicht, die man per Emulation im Browser spielen kann. Echte Klassiker wie Mario Bros (1988) oder Tennis (1983). Hier geht es zum Console Living Room.

Sound ist leider noch nicht dabei, aber der Emulator soll kontinuierlich weiterentwickelt werden.

Weitere Titel: Ninja Golf, One-on-One-Basketball, Sword and the Sorcerer, etc.

PS: Ob das hier wohl dazu führen wird, dass Archive.org in Großbritannien zensiert wird?

#0zapftis: Wer archiviert die CCC-Schriften?

Der CCC hat einen Staatstrojaner analysiert (ob Bundestrojaner oder Landestrojaner) und der Aufschrei ist groß. Die Folgen werden es hoffentlich ebenso sein. Wer auch immer dies veranlasst hat, hier reicht ein einfacher Rücktritt nicht aus.

Irgendein Innenminister wird vermutlich in Kürze sein Amt abgeben müssen. Dies wird für Politikwissenschaftler heute und Historiker in späteren Zeiten interessant sein. Jetzt sind die Quellen zahlreich. FAZ, Zeit Online, Fefe, Netzpolitik und viele andere dokumentieren den Fall. Vieles, vielleicht auch dieser Artikel bei Heute.de wird in Kürze “depubliziert” oder aus anderen Gründen nicht mehr verfügbar sein. Vielleicht auch die Analyse des CCC (PDF) nicht.

Wer archiviert solche Reports? Im Katalog der DNB habe ich nur neun Publikationen des Chaos Computer Club. Da der Output dort doch etwas größer ist, vermute ich, dass dortige Netzpublikationen nicht eingesammelt werden. Müssen sich kommende Generationen auch Archive.org und ähnliche Initiativen verlassen?

Darwins digitalisierte Bibliothek

Charles Darwin, 7 Jahre alt (7 years old)

Der Chronicle of Higher Education weist auf die digitalisierte und frei online verfügbare Bibliothek Darwins hin.

The project to digitize Darwin’s extensive library, which includes 1,480 scientific books, was a joint effort with the University of Cambridge, the Darwin Manuscripts Project at the American Museum of Natural History, the Natural History Museum in Britain, and the Biodiversity Heritage Library.

Zumindest ein Teil davon ist via Archive.org zugänglich, zum Beispiel dieses Werk über das Abändern der Vögel durch Einfluss des Klima’s (PDF, ca. 350 MB und tatsächlich mit Deppenapostroph im Titel) von Constantin Lambert Gloger. Die Scan-Qualität ist, wie man bei der Dateigröße auch nicht anders vermuten mag, sehr gut. Die Dateien sind auch zum Download verfügbar.

Prcscrvod for gcncrations! Googles ladinischer OCR-Unfall

Ok, OCR-Unfälle sind nichts besonderes. Dennoch: Wer sich bei Archive.org den Volltext der “ladinischen Idiome in Ladinien, Gröden Fassa, Buchenstein, Ampezzo” ansehen möchte, stößt auf folgende einleitende Bemerkung:

ocr_unfall

This is a digital copy of a book that was prcscrvod for gcncrations on library shclvcs bcforc it was carcfully scannod by Google as pari of a projcct to make the world’s books discoverablc online.

Ist das ein grödenfassadisches Ladiner-Idiom? 1337 sp3@k? Googles Mitarbeiter neigen ja zu so etwas.

Wer noch mehr dieser carefully scanned books sucht, findet sie natürlich auch per Google. Man bediene sich am besten einer Phrasensuche nach “prcscrvod for gcncrations”.

Archivieren von Blogs

Jakob Voss macht sich Gedanken über die Sammlung und Archivierung von Blogs, ich selbst habe ja mal einen Versuch gestartet, Infobib im Rahmen der Pflichtabgabe von Netzpublikationen archivieren zu lassen, und nun geht die LoC das Problem “Archivierung von Blogs” an. Ergebnis ist das Programm “Web Capture”. Technische Basis ist u.a. Wayback, die auch vom Internet Archive eingesetzt wird. Gesammt wird u.a.:

Categories of sites captured include, but are not limited to: United States government (federal, state, district, local), foreign government, candidates for political office, political commentary, political party, media, religious organizations, support groups, tributes and memorials, advocacy groups, educational and research institutions, creative expressions (cartoons, poetry, etc.), and blogs.

Seiteninhaber werden offensichtlich auch benachrichtigt, wenn ihre Seiten in das Programm aufgenommen werden. Das sieht dann so aus.

[via Library Stuff]