PDF/A vs. Open Access?
|
Subjektive Meinung: PDF/A ist der vermutlich am schlechtesten implementierte Standard seit Erfindung von Dokumentstandards überhaupt. Es ist veröffentlichungswilligen und dem Open Access zugeneigten Autoren kaum zumutbar, schon vorhandene Dokumente in standardkonformes PDF/A zu konvertieren. Kaum eine Lösung hält, was sie verspricht, bei fast jeder Konvertierung schlägt irgend etwas fehl. Auf meinen Hilferuf zur PDF/A-Konvertierung haben sich etliche Leute bei mir per Mail gemeldet. Alle mit dem gleichen oder zumindest ähnlichen Problemen.
Wie ist Abhilfe zu schaffen? Eine mögliche Lösung scheint mir, auf die konsequente Einhaltung des PDF/A-Standards bei Dokumentenservern zu verzichten. Wer etwas veröffentlichen will, sollte nicht mit allzu vielen technischen Hürden belastet werden. So wie es momentan aussieht, steht die an sich gute Idee, einen offenen und einheitlichen Standard für Dokumentenserver zu verwenden, einer breiten Akzeptanz der Selbstarchivierung entgegen.
Es ist einfach lächerlich, dass jeder Autor vor der Archivierung seiner Dokumente drei Semester PDF/A studieren muss. Um eine breite Akzeptanz von OA zu erzielen, müssen wir es den Autoren so einfach wie möglich machen. Youtube und Slideshare müssen zumindest hierbei Vorbilder sein. Klar ist, dass eine solche Einfachheit vermutlich nicht erreicht werden kann. Zu unterschiedlich sind die Ziele der Dienste. Aber als Richtlinie kann und soll der Veröffentlichungsvorgang bei solchen Angeboten dienen.
Bleibt das Problem der Langzeitarchivierung. Eine mögliche Umsetzung wäre, diese zentral z.B. durch die DNB zu organisieren. Sie sollte auf jeden Fall nicht zum Problem der Autoren werden.
Ich bitte um Meldung in den Kommentaren: An welcher Bibliothek funktioniert der Umgang mit PDF/A auch nur halbwegs problemlos?

Warum wird das nicht von der Repository-Software automatisch gemacht? Die einschlägigen Anbieter könnten einen entsprechenden Workflow doch einfach nach dem Upload durchführen. Prüfen, welches Format hochgeladen wurde, Konvertierung, Validierung, fertig.
Kann doch nicht so schwer sein.
posted on Juli 2nd, 2008 at 16:03 Uhr
Das wäre in der Tat eine sehr elegante Variante. Voraussetzung wäre ein funktionierender Open-Source-PDF/A-Konverter, der mit einer gewissen Vielfalt an Formaten umgehen kann. So könnte man den Komfort für Autoren zumindest schon einmal wesentlich erhöhen.
Ob das allerdings so einfach umzusetzen ist, wage ich angesichts der erheblichen Schwierigkeiten, auf die man im PDF/A-Alltag stößt, doch zu bezweifeln.
posted on Juli 2nd, 2008 at 16:25 Uhr
“A pain in the ass” ist für meine Versuche, etwas an der UB zu platzieren fast noch geschmeichelt. Selbst wenn man der Bibliothek ein Tex-Dokument schickt, kann sie es nicht veröffentlichen. Wieso eigentlich nicht? Viel offener geht es doch nicht mehr. Die Abbildung ist doch egal. Hauptsache die Inhalte stimmen.
Konsequent wäre die ausschließliche Annahme von Text-Dateien. Da kann nicht viel schief gehen.
posted on Juli 3rd, 2008 at 11:16 Uhr
eSciDoc geht in so eine Richtung. Genauer Informationen erhält man auf der Projekt-Homepage.
http://www.escidoc-project.de/
posted on Juli 3rd, 2008 at 11:23 Uhr
Ach Du grüne Neune. Können zwei mit deutschen Steuergeldern geförderte staatliche deutsche Institutionen, die anscheinend ohne nichtdeutsche Beteiligung an einem Projekt zur Förderung deutscher Wissenschaft arbeiten, nicht einmal eine deutsche Informationsseite anlegen?
:-(
posted on Juli 3rd, 2008 at 20:03 Uhr
PDF/A versus Open Access
http://infobib.de/blog/2008/07/02/pdfa-vs-open-access/
“Es ist veröffentlichungswilligen und dem Open Access zugeneigten Autoren kaum zumutbar, schon vorhandene Dokumente in standardkonformes PDF/A zu konvertieren. Kaum eine Lösung hält, was sie verspricht, bei fast jeder Konvertierung schlägt irgend etwas fehl.”
KlausGraf – am Samstag, 5. Juli 2008, 01:00 – Rubrik: Open Access
Kommentar verfassen
schwalm.potsdam meinte am 5. Jul, 11:55:
PDF/A ist technisch aufwendiger als andere Datenformate, dagegen jedoch das einzige ISO-genormte Langzeitarchivformat, das volltextfähig und deutlich flexibler als bspw. TIFF ist. Für die Konvertierung nach PDF/A und die entsprechende Validierung existieren in ausreichender Zahl Anbieter am Markt. Den Bibliotheken sei hier eine Kontaktaufnahme mit dem PDF/A-Competence Center empfohlen, welches die Fortentwicklung und Verbreitung von PDF/A unterstützt und Hilfestellung zur Umsetzung des Formats geben kann: http://www.pdfa.org
Nebenbei: Im Archivbereich beginnt sich PDF/A für die elektronische Archivierung durchzusetzen.
posted on Juli 5th, 2008 at 11:58 Uhr
PDF/A ist technisch aufwendiger als andere Datenformate, dagegen jedoch das einzige ISO-genormte Langzeitarchivformat, das volltextfähig und deutlich flexibler als bspw. TIFF ist. Für die Konvertierung nach PDF/A und die entsprechende Validierung existieren in ausreichender Zahl Anbieter am Markt. Den Bibliotheken sei hier eine Kontaktaufnahme mit dem PDF/A-Competence Center empfohlen, welches die Fortentwicklung und Verbreitung von PDF/A unterstützt und Hilfestellung zur Umsetzung des Formats geben kann: http://www.pdfa.org
Nebenbei: Im Archivbereich beginnt sich PDF/A für die elektronische Archivierung durchzusetzen.
posted on Juli 5th, 2008 at 11:59 Uhr
Den Bibliotheken kann man natürlich die Kontaktaufnahme zum PDF/A-Competence-Center empfehlen. Aber mit Anfragen von hilfsbedürftigen Studenten und Wissenschaftlern wird man dort sicherlich überfordert sein. Die zahlreichen Anbieter am Markt sind nämlich momentan zumindest zu Teilen nicht in der Lage, das PDF/A-Format tatsächlich umzusetzen. Wenn man eine PDF/A-Export-Funktion nutzt, sollte man auch erwarten können, das PDF/A dabei herauskommt. Das ist bei OpenOffice.org der Fall. Das ist nach meinen Erfahrungen aber die Ausnahme von der Regel.
Wie man schon an der Webseite erkennen kann, wendet sich PDFA.org eindeutig an Kunden mit großen Mengen zu bearbeitender Dokumente. Möglicherweise ist in einem homogenen Workflow PDF/A nach guter Anpassung an lokale Gegebenheiten problemlos verwendbar.
Aber genau das ist das Problem: Es fehlt an Lösungen, wie Otto-Normal-Autor seine schon vorhandenen Word- und PDF-Dokumente problemlos zumindest in PDF/A-1b wandeln kann.
posted on Juli 5th, 2008 at 20:23 Uhr
Die Problematik mit PDF/A ist nicht so einschichtig zu betrachten, da die Erzeugung der Dokumente in heterogener Weise erfolgt.
Die Erstellung von PDF/A-Dokumenten erfolgt auf verschiedenste Weise, die die Autoren verwenden. Es gibt häufig Autoren, die mit LaTeX Dokumente erstellen und mit pdflatex die PDF-Dokumente erstellen. Diese Dokumente sind i.d.R. nicht PDF/A-kompatibel und lassen sich m.W. auch gar nicht mehr in PDF/A-kompatible PDFs umwandeln. Auch nicht durch sog. Tools…Das Problem liegt häufig in der fehlenden Einbettung von Schriften und Weiteninformationen, die eher auf PostScript-Ebene gelöst werden müssen.
I.d.R. problemlos sind Dokumente, die mit Windows-Software wir MS Office + Adobe Acrobat bzw. StarOffice erstellt wurden. Diese machen ca. 70 % der publizierten Dokumente aus, aber der Rest bereitet Probleme.
Ich denke, solange OpenAccess ohne Dienstleistung und somit entsprechender Ausbau an Mitarbeitern und Infrastruktur erfolgt, wird dieses Problem nicht gelöst werden. Anders sieht es in Institutionen aus, die explizit für solche Fälle einen Service wie bei der HU Berlin anbieten. Dort übernehmen Rechenzentrumsmitarbeiter die Konvertierung standardisierter Dokumente in entsprechende PDF-Dokumente.
Doch dieses Vorgehen kann wohl nicht bundesweit umgesetzt werden. Somit wird die Langzeitverfügbarkeitproblematik vermutlich nicht generell und zentral gelöst werden können.
posted on Juli 5th, 2008 at 22:30 Uhr
Das PDF/A-Competence Center richtet sich auf zwei Ziele: Standardisierung bzw. Normierung sowie Verbreitung von PDF/A. Was die Umwandlung und Prüfung angeht, so existieren diverse Open Source Tools. Was den professionellen Bereich angeht, so bestehen ausreichende lösungen bspw. von:
- LuraTech
- Document Dialog
- PDFlib
- PDF-Tools
allesamt Anbieter, die sowohl einer PDF/A-Konverter sowohl für umfassende wie begrenzte Datenmengen als auch PDF/A-Validatoren anbieten, die im professionellen Umfeld für die rechtssichere Langzeitspeicherung sensibler Daten eingesetzt werden. Tools, bei denen Sie sicher sein können, dass wo PDF/A draufsteht auch PDF/A herauskommt. Die Lösungen entsprechen faktisch einer Middleware, die zwischen zulieferndem System und Archivsystem steht, aber auch als Stand-Alone-Konverter und Validatoren genutzt werden kann.
Das PDF/A-Competence Center wird mit Anfragen von Studenten und Wissenschaftlern kaum überfordert sein, denn genau diesen Austausch will die Institution ja befördern. Insofern einfach den Kontakt aufnehmen.
posted on Juli 6th, 2008 at 12:10 Uhr
@EH: Je nach Umfeld werden Dokumente überwiegend in LaTeX-Umgebungen erzeugt, besonders im mathematisch-naturwissenschaftlichen und ingenieurswissenschaftlichen Bereich. Da ich wahrlich kein Experte für LaTeX bin: Kann man nicht einfach ein Modul einbinden, dass Probleme wie das mit den inkonsistenten Weiteninformationen löst?
@schwalm.potsdam: Warum bietet das Competence-Center denn keine Informationen für Studenten an? Oder eine frei zugängliche Sammlung von Textbausteinen, die Bibliotheken in die Hilfstexte von Dokumentenservern implementieren können?
Immerhin: Word 2007 soll ja angeblich ab 2009 PDF/A erzeugen können. Das wäre schon mal ein kleiner Schritt in die richtige Richtung. Dieses Format wird sich schließlich nur auf breiter Ebene durchsetzen können, wenn die Umsetzung keine Mühe für Autoren bedeutet.
posted on Juli 6th, 2008 at 14:07 Uhr