Archivieren von Blogs

Jakob Voss macht sich Gedanken über die Sammlung und Archivierung von Blogs, ich selbst habe ja mal einen Versuch gestartet, Infobib im Rahmen der Pflichtabgabe von Netzpublikationen archivieren zu lassen, und nun geht die LoC das Problem “Archivierung von Blogs” an. Ergebnis ist das Programm “Web Capture”. Technische Basis ist u.a. Wayback, die auch vom Internet Archive eingesetzt wird. Gesammt wird u.a.:

Categories of sites captured include, but are not limited to: United States government (federal, state, district, local), foreign government, candidates for political office, political commentary, political party, media, religious organizations, support groups, tributes and memorials, advocacy groups, educational and research institutions, creative expressions (cartoons, poetry, etc.), and blogs.

Seiteninhaber werden offensichtlich auch benachrichtigt, wenn ihre Seiten in das Programm aufgenommen werden. Das sieht dann so aus.

[via Library Stuff]

World Digital Library

Aus der Projektbeschreibung der World Digital Library:

The World Digital Library will make available on the Internet, free of charge and in multilingual format, significant primary materials from cultures around the world, including manuscripts, maps, rare books, musical scores, recordings, films, prints, photographs, architectural drawings, and other significant cultural materials. The objectives of the World Digital Library are to promote international and inter-cultural understanding and awareness, provide resources to educators, expand non-English and non-Western content on the Internet, and to contribute to scholarly research.

Die digitale Weltbibliothek baut auf dem “Weltgedächtnis” auf.

[via Heise]

Kopal

Gregor Honsel schreibt über Kopal in Technology Review: “Hundert Jahre auf Band”

“Das 19. Jahrhundert ist bedeutend besser dokumentiert als die sechziger Jahre des letzten Jahrhunderts”, sagt Kopal-Gesamtprojektleiter Reinhard Altenhöner von der Deutschen Nationalbibliothek. Um die Gegenwart ist es kaum besser bestellt. Die Datenflut, die es zu bändigen gilt, schwillt immer mehr an; gleichzeitig sinkt die Qualität der gängigen Speichermedien: “Die Haltbarkeits-Prognose von selbst gebrannten CDs ist sehr schlecht. DVDs sind tendenziell sogar noch schlechter, weil sie dichter beschrieben werden”, sagt Altenhöner. Dazu komme der schnelle Wandel der Speicher-Hardware – irgendwann gebe es “nur noch ein paar Lesegeräte, die von Freaks gewartet werden”.

Pflichtabgabe von Netzstrumpfhosen. Ein Selbstversuch

Die Deutsche Nationalbibliothek ruft, und als gesetzestreuer Bürger wollte ich natürlich sofort ausprobieren, wie denn das Anmeldeverfahren für die Pflichtabgabe von Netzwerkpublikationen genau funktioniert. Und selbst wenn man dem hiesigen Bibliothekswesen nicht viel zutraut, ist man wirklich sehr überrascht, wie das Procedere aussieht.

  1. Das Anmeldeformular wird ausschließlich als doc-Datei angeboten. Ist es zwingend notwendig, Microsofts Word zu benutzen, damit man teilnehmen kann? Nimmt die DNB auch nur Bücher an, die von bestimmten Druckereien ausgedruckt wurden? Im Jurawiki ist sehr schön dargestellt, warum man so etwas nicht machen sollte. Es fällt dort Worte wie “Nötigung” und “Gefährdung”. Todesmutig und mit Antivir in Habachtstellunge hab ich nun OpenOffice auf diese Datei losgelassen. Und…
  2. … ich bekomme ein einseitiges Formular ohne geschützte Bereiche. Müssen die armen DN-Bibliothekare nun jedes Formular auf unveränderte Texte prüfen? Nicht jeder wird so auffällig fälschen wie ich:

    Pflichtabgabe von Netzstrumpfhosen

    Gesetzt den Fall, man lieferte dieses Formular nun korrekt ausgefüllt und ungefälscht per E-Mail, Fax oder Post an die DNB, so bekommt man eine Anmelder-Identifikation und ein Passwort per Email(!) zugesandt. Von wegen rückständig!

    Wie fortschrittlich die DNB ist, beweist sie schon im nächsten Schritt: Sie melden die Netzpublikation an. Diese Anmeldung ist für jede Lieferung erforderlich. Vor jeder Lieferung? Nun ja, sehen wir weiter…

  3. Wollte ich der DNB gerade noch auf die Möglichkeiten der modernen Technik hinweisen, so zeigt sich nun, dass dies gar nicht notwendig ist! Um die Netzpublikation anzumelden, darf ich ein interaktives Anmeldeformular aufrufen. Doch meine Befürchtung, jetzt blinkende Flash-Animationen zu sehen, werden glücklicherweise enttäuscht. Nein, man wird in ein konventionelles, mit Perl gestaltetes Formular gelenkt. Und das Ausfüllen gestaltete sich mitunter etwas schwierig. Hinweis: die Steuerklärungsformulare sind ähnlich formuliert. Beispiel gefällig?

    Abgabe von Steuererklärungen

    Vorher wurden schon Begriffe wie Grundlieferung verwendet. Wahrscheinlich, um beteiligten Bibliothekswesen ein bißchen Vertrautheit im fremden Online-Dschungel zu lassen. Aber vielleicht treibt die DNB ja auch das Verlangen, dieses Wort im Sprachschatz der Netzbürger zu verankern.

  4. Davon lassen wir uns nicht aufhalten, die richtigen Punkte sind schnell ausfindig gemacht (“Typ: Elektronische Zeitschrift”), und der nächste Punkt in Augenschein genommen. Ich habe zur Datenübermittlung verschiedene Möglichkeiten, und hier beantwortet sich auch meine Frage aus Punkt XX zu den Lieferungen. “Prinzip Schnappschuß” und “Prinzip Differenzmenge”. Ersteres bedeutet, ich liefere der DNB die komplette Webseite auf einmal, beim “Prinzip Differenzmenge” werden nur neue oder geänderte Daten übermittelt. Ja, genau. Ich übermittele die Daten.

    Vorgesehen ist eine Lieferung per FTP. Genaueres dazu schreibt Jürgen Lübeck, man muss sich ja schließlich nicht über alles selbst aufregen.

    Wie auch immer: Gewünscht ist eine gepackte Datei mit allen Seiten, die publiziert wurden. Ganz ehrlich, ich wüsste wirklich nicht, wie ich das bewerkstelligen soll. Sämtliche Infobib-Seiten sind dynamisch generiert. Das heißt, sie existieren eigentlich nicht wirklich. Will die DNB einen SQL-Dump von mir? Sicherlich nicht. Aber was sonst? Wget fällt mir ein, aber warum macht die DNB das nicht selbst?

    An dieser Stelle ist anzumerken, dass Patrick Danowski schon die Hochschulschriftenserver für viel zu kompliziert im Vergleich mit Webdiensten wie Scribd hält. Entscheidet man sich für die Lieferung von “Schnappschüssen”, gelangt man zum letzten Punkt:

  5. Bibliographische Metadaten : fortlaufende Publikation. Das einzig hier auszusetzende sind die vorgegebenen Möglichkeiten zur Erscheinungsweise. Davon wird auf fast alle die Option “unregelmäßig, aber mehrmals im Jahr” zutreffen. Aber zu dieser Frage gibt es noch ein freies Feld, in dem man dann etwas genauer eintragen kann, dass mehrmals im Jahr in der Regel auch mehrmals pro Woche bedeutet.
  6. Auf der selben Seite werden noch ein paar Daten abgefragt. Alles kein Problem, Infobib gehört in die Kategorie 0020, Bibliotheks- und Informationswissenschaft. Auch für eher tagebuchartige Blogs findet sich schnell die passende Kategorie: 920, Biografie, Genealogie, Heraldik. Eine Rubrik weiter darf man die Seite weiter klassifizieren. Man hat die beeindruckende Auswahl zwischen:

    Wenn man davon noch nicht genug hat, und die Webseitenklassifizierung der Informatik-AG der örtlichen Realschule übernehmen möchte, kann auch dieses machen. Bei den Thesauri/Normdateien sind nur drei angegeben, Medical Subject Headings, SWD (nicht ausgeschrieben, kennt ja schließlich jeder!) und Unified Medical Language System. Insgesamt ist die DNB hier wieder sehr modern. Es gibt jede Menge user generated content.

  7. Es folgt die Frage, ob die Seite lizenzfrei ist. Ist sie nicht, im Footer wird schließlich stets auf die Creative Commons Attribution-Share Alike 2.0 Germany License verwiesen. Doch wenn man liest, …

    Die bibliographische Erschließung erfordert, dass die angemeldeten Netzpublikationen den berechtigten Nutzern der Deutschen Nationalbibliothek zugänglich sind. Bitte stellen Sie dies vor der Abgabe sicher.

    … dann hakt man schnell lizenzfrei an und wandert weiter.

  8. Die letzte Seite! Land in Sicht! Und es lässt sich gut an: Angaben zur Archiv-Version der Netzpublikation : fortlaufende Publikation. Am Punkt “Systemvoraussetzungen” kann man herummäkeln, wenn man will. Muss man aber eigentlich nicht mehr.

In der FAQ zeigt sich die DNB scheinbar einsichtig: Warum erscheint das Anmeldeverfahren so aufwändig? Es erscheint aber nicht nur, es ist! Hoffnung bietet jedoch ein anderer Punkt: Wie liefert man eine Netzpublikation ab? Wo bekomme ich einen Überblick über das Verfahren?

Derzeit wird an anderen Transfermöglichkeiten und auch an Verfahren zur Sammlung ganzer Gruppen von Objekten, wie etwa vollständiger Websites, gearbeitet. Automatisierte Verfahren, die unter dem Begriff “Harvesting” bekannt sind, können zur Sammlung ganzer Bereiche des Internets eingesetzt werden. Diese Verfahren befinden sich momentan in einem Entwicklungsstadium und müssen noch für den Einsatz im Rahmen des erweiterten Sammelauftrages zur Anwendungsreife gebracht werden.

Kurz und gut: Die DNB will Infobib offensichtlich nicht haben. Vielleicht ja in Kürze, wenn der erweiterte Sammelauftrag anwendungsgereift ist.

Die Zukunft des PDF

Vom 8.-9. März 2007 findet die 1. PDF/A-Konferenz (Konferenzprogramm) in Stuttgart statt. Derweil sorgt sich Jürgen Lübeck um die zukünftige Eignung des Formates für die Langzeitarchivierung:

Mit der Version 8 wird Adobes Format interaktiv! Wenn Dokumente veränderbar sind, wie können diese dann noch eindeutig referenziert werden? Ein Zeitstempel wird nicht genügen, wenn ältere Versionen nicht verfügbar bleiben.

Continue reading “Die Zukunft des PDF”

Warum Vista nicht in Bibliotheken und Archiven eingesetzt werden darf

Golem.de berichtet über einen Artikel von Peter Gutmann von der Universität von Auckland (Neuseeland).

Die für Bibliotheken, Archive und auch Firmen relevante Passage aus einem Microsoft-Dokument (Zitat nach Golem.de, Microsoft scheint das Dokument aus dem Netz genommen zu haben):

Die geschützte Umgebung in Windows Vista wird, nach Verstreichen einer angemessenen Warn- und Wartefrist, jeden Treiber blockieren, der Premium-Inhalte nicht ausreichend schützt […] Wenn ein- und derselbe Treiber für alle Chips eines Herstellers eingesetzt wird, dann könnte die Blockade des Treibers dazu führen, dass alle Produkte eines Herstellers einen neuen Treiber benötigen.

Was das für Krankenhäuser, Notrufzentralen und andere sicherheitsrelevante Bereiche bedeutet, ist klar. Für Bibliotheken bedeutet es erstmal nur Mehraufwand. Wirklich kritisch ist – gerade für Digitalisierungsunternehmungen – folgende Passage:

Ein anderes, gravierendes Problem sieht Gutmann in der automatischen Verschlechterung von Bildinformationen, falls Premium-Inhalte verarbeitet werden. Die Spezifikation von Vista sieht vor, dass die Darstellungsqualität von digitalen Bildern automatisch verringert wird, sobald eine Komponente des Systems geschützte Inhalte, zum Beispiel Musik, verarbeitet.

Ein Digitalisierer hört nebenbei ein bißchen Musik aus dem Rechner, und – schwupps – sind die in den letzten Tagen digitalisierten Bilder nur noch in einer schlechteren Qualität vorhanden. Man darf gespannt sein, wie die Hersteller von Digitalisierungssoftware darauf reagieren. Folgt der große Umschwung gen Linux/Mac?