In der aktuellen iX (Heft 5/2012) beschreibt Jochen Stärk auf S. 144-145, wie man mit Heritrix (Crawler) und Wayback (Präsentation der archivierten Seiten) Webseiten archivieren kann.
Archiv: archive.org
2012 2 Mai
Webseiten archivieren
Abgelegt unter: EDV,Open Source | RSS 2.0 | TB | Tags: archive.org, archivierung, heritrix, netzpublikation, wayback, wayback machine | Kommentare geschlossen
2011 9 Okt
#0zapftis: Wer archiviert die CCC-Schriften?
Abgelegt unter: Bibliothek | RSS 2.0 | TB | Tags: #0zapftis, archive.org, ccc, DNB, netzpolitik, netzpublikation, staatstrojaner | Kommentare geschlossen
Der CCC hat einen Staatstrojaner analysiert (ob Bundestrojaner oder Landestrojaner) und der Aufschrei ist groß. Die Folgen werden es hoffentlich ebenso sein. Wer auch immer dies veranlasst hat, hier reicht ein einfacher Rücktritt nicht aus.
Irgendein Innenminister wird vermutlich in Kürze sein Amt abgeben müssen. Dies wird für Politikwissenschaftler heute und Historiker in späteren Zeiten interessant sein. Jetzt sind die Quellen zahlreich. FAZ, Zeit Online, Fefe, Netzpolitik und viele andere dokumentieren den Fall. Vieles, vielleicht auch dieser Artikel bei Heute.de wird in Kürze “depubliziert” oder aus anderen Gründen nicht mehr verfügbar sein. Vielleicht auch die Analyse des CCC (PDF) nicht.
Wer archiviert solche Reports? Im Katalog der DNB habe ich nur neun Publikationen des Chaos Computer Club. Da der Output dort doch etwas größer ist, vermute ich, dass dortige Netzpublikationen nicht eingesammelt werden. Müssen sich kommende Generationen auch Archive.org und ähnliche Initiativen verlassen?
2011 28 Jun
Darwins digitalisierte Bibliothek
Abgelegt unter: Digitalisierung | RSS 2.0 | TB | Tags: archive.org, charles darwin, Digitalisierung, klima, Open Access | Kommentare geschlossen
Der Chronicle of Higher Education weist auf die digitalisierte und frei online verfügbare Bibliothek Darwins hin.
The project to digitize Darwin’s extensive library, which includes 1,480 scientific books, was a joint effort with the University of Cambridge, the Darwin Manuscripts Project at the American Museum of Natural History, the Natural History Museum in Britain, and the Biodiversity Heritage Library.
Zumindest ein Teil davon ist via Archive.org zugänglich, zum Beispiel dieses Werk über das Abändern der Vögel durch Einfluss des Klima’s (PDF, ca. 350 MB und tatsächlich mit Deppenapostroph im Titel) von Constantin Lambert Gloger. Die Scan-Qualität ist, wie man bei der Dateigröße auch nicht anders vermuten mag, sehr gut. Die Dateien sind auch zum Download verfügbar.
2009 31 Okt
Prcscrvod for gcncrations! Googles ladinischer OCR-Unfall
Abgelegt unter: Bibliothek,Digitalisierung,Schnickschnack | RSS 2.0 | TB | Tags: archive.org, google book search, ocr | Kommentare geschlossen
Ok, OCR-Unfälle sind nichts besonderes. Dennoch: Wer sich bei Archive.org den Volltext der “ladinischen Idiome in Ladinien, Gröden Fassa, Buchenstein, Ampezzo” ansehen möchte, stößt auf folgende einleitende Bemerkung:
This is a digital copy of a book that was prcscrvod for gcncrations on library shclvcs bcforc it was carcfully scannod by Google as pari of a projcct to make the world’s books discoverablc online.
Ist das ein gröden-fassadisches Ladiner-Idiom? 1337 sp3@k? Googles Mitarbeiter neigen ja zu so etwas.
Wer noch mehr dieser carefully scanned books
sucht, findet sie natürlich auch per Google. Man bediene sich am besten einer Phrasensuche nach “prcscrvod for gcncrations”.
2007 23 Okt
Archivieren von Blogs
Abgelegt unter: Bibliothek | RSS 2.0 | TB | Tags: archive.org, brewster-kahle, Digitalisierung, kulturgut, langzeitarchivierung, library-of-congress, wayback | Kommentare geschlossen
Jakob Voss macht sich Gedanken über die Sammlung und Archivierung von Blogs, ich selbst habe ja mal einen Versuch gestartet, Infobib im Rahmen der Pflichtabgabe von Netzpublikationen archivieren zu lassen, und nun geht die LoC das Problem “Archivierung von Blogs” an. Ergebnis ist das Programm “Web Capture”. Technische Basis ist u.a. Wayback, die auch vom Internet Archive eingesetzt wird. Gesammt wird u.a.:
Categories of sites captured include, but are not limited to: United States government (federal, state, district, local), foreign government, candidates for political office, political commentary, political party, media, religious organizations, support groups, tributes and memorials, advocacy groups, educational and research institutions, creative expressions (cartoons, poetry, etc.), and blogs.
Seiteninhaber werden offensichtlich auch benachrichtigt, wenn ihre Seiten in das Programm aufgenommen werden. Das sieht dann so aus.
[via Library Stuff]


