Dokumente konvertieren mit Pandoc

Teil der Operation Frühjahrsputz 2013, in deren Verlauf angefangene und nie beendete Postings einfach so veröffentlicht werden.

Pandoc ist ein erstaunlicher Dokumentenkonverter.

Pandoc can convert documents in markdown, reStructuredText, textile, HTML, DocBook, LaTeX, or MediaWiki markup to

Pandoc wird zu Recht als Schweizer Taschenmesser bezeichnet und läuft auf ziemlich vielen Betriebssystemen.

Interdisziplinäres Repository: Zenodo

Interessantes neues interdisziplinäres Repository: Zenodo.

All research outputs from across all fields of science are welcome! ZENODO accept any file format as well as both positive and negative results. However, we do promote peer-reviewed openly accessible research, and we do curate your upload before putting it on the front-page.

Die Features klingen spannend. Unter anderem kann man direkt aus seiner Dropbox veröffentlichen. Metadatenextraktion aus Dateien ist auch geplant.

[via Peter Suber, siehe auch Archivalia]

pdf2htmlEX

Lange Zeit galt es gesichert, dass man aus Kühen zwar Gulasch machen kann, aus Gulasch aber keine Kühe. Doch eines Tages begab es sich, dass Markus Trapp einen Tweet von @openscience weiterleitete, worinnen zu lesen stand:

Beispiel: PDF -> HTML

Dazu fällt mir nur ein: Wow!

PS: Ist das vielleicht eine elegante Möglichkeit, zahlreiche PDF-Repository-Beiträge retrospektiv richtig ins Web zu bekommen?
PPS: Und wer ist das kleine Mädchen?

Informationsverhalten von Physikern

Matin Durrani fasst in PhysicsWorld die Studie “Collaborative Yet Independent” zusammen, die sich mit dem Informations-, Kommunikations- und Kollaborationsverhalten von Physikern befasst. Zu Blogs & Co heißt es:

Few physical scientists use blogs, Twitter, Open Notebook Science, social networks, public wikis or other “public-facing” technologies to share research information, the report finds, although some particle physicists and astrophysicists use internal, private wikis. Most physical scientists view these services as “distractions” from their communications with key colleagues – the only exception being researchers involved in “citizen-science” projects such as Galaxy Zoo, which rely on close collaboration with members of the public. Indeed, three-quarters of particle physicists still use e-mail lists to find new information.

In der Zusammenfassung (PDF) werden verschiedene Empfehlungen gegeben. Unter anderem:

For resources available only via institutional subscriptions, remote access arrangements need to be either improved or better communicated to researchers.

Auch interessant: Annotationswerkzeuge zum Beispiel für PDF-Dateien werden als unbefriedigend empfunden. Lesenswert, und das nicht nur für Physiker!

[via Confessions of a Science Librarian]

Thieme setzt auf Flash für eBooks

Oliver Obst sinniert in Medinfo über die Vorläufigkeit der eBooks anhand von Thieme, die neuerdings auf Flash für nichtregistrierte User setzen:

Hier steht man mit zigtausend Euro bei dreitausend Studenten im Wort. Aus IHREN Studienbeiträgen wurden die Thieme-Bücher gekauft, IHNEN hat man versichert, dass sie PDFs bekommen würden, mit den man auch offline oder am iPhone/iPad arbeiten kann. Das soll jetzt nicht mehr möglich sein? (Der Download einzelner Seiten als PDF zählt für mich nicht als PDF-Nutzung, dazu ist es zu kompliziert und langsam – noch komplizierter als die bisherige Nutzung der in zig PDFs atomisierten Thieme-Bücher).

Atomisierte Bücher sind eine schöne Formulierung für die Unsitte, ein Buch nicht komplett zum Download anzubieten. “Wasch mich, aber mach mich nicht nass” ist auch bei anderen eBookern gern gesehen. Bei der Inetbib sprach ich darüber mit verschiedenen eBook-Anbietern. Auf die Frage, warum man ein Buch nicht komplett zum Download anbieten würde, wurde stets verneint, dass es primär um die Erhöhung der Klickraten ginge. Vielmehr seien in erster Linie die Begrenzung des Traffics der Grund und natürlich die Überlegung, dass atomisierte eBooks nicht so schnell ihren Weg in die dunklen Schlünde des Internets finden.

[via netbib]

Keine Panik: Pflichtabgabe von Netzpublikationen eilt nicht

In den Kommentaren zur Meldung über die Verordnung zur Pflichtabgabe von Netzpublikationen sind zum Teil gruselige Visionen beschworen worden. Der Telagonsichelputzer hat bei der DNB nachgefragt und früher als ich eine Antwort erhalten. Alle Angaben ohne Gewähr, wie man in seinem Blog nachlesen kann:

* Publikationen wie Weblogs sind momentan für die Erfassung nicht relevant.
* Private Inhalte auch außerhalb Weblogs, die mit Werbeanzeigen einen gewerblichen Charakter haben, sind für die Archivierung derzeit nicht relevant.
* Technisch gesehen ist die Archivierung von sehr vielen Datenmengen, insbesondere individuelle Publikationen wie Weblogs, noch nicht ausgereift.
* XML und RSS seien andenkbare Lösungen zur Aggregation der Inhalte, die jedoch noch in Planung sind.
* Die Pflege der Daten bei Aktualisierungen der publizierten Texte ist derzeit noch nicht gelöst.
* Digitale Bilder und Videos diverser Social Media Networks stellen die Nationalbibliothek vor eine Herausforderung, insbesondere die zu bereitstellende Speicherkapazität seitens der Nationalbibliothek für einen digitalen Film sind derzeit nicht abgedeckt.

Für Nichtblogger und Firmen: Kann man nicht einfach per wget oder einem ähnlichen Tool die Seiten runterschaufeln, das dann durch sowas wie HTML2PDF drehen und anschließend der DNB rüberschicken? Das kann man automatisieren, und wenn die Notwendigkeit bestünde, lässt eine bedienungsfreundliche Open-Source-Applikation bei Bedarf bestimmt nicht allzu lange auf sich warten.

Warum PDF-Dateien verschlüsseln?

Collection by 96dpi Peter Suber schreibt über die Open Access Policy der Fraunhofer-Gesellschaft, die auf Deutsch und Englisch als PDF-Datei veröffentlicht wurde. Dabei moniert er:

Unfortunately, both the German and English versions of the policy are locked PDFs which block cutting/pasting (why?) and I don’t have time to rekey the important passages.

Why? Gute Frage! Wenn man mit wissenschaftlichen Autoren über elektronische Publikationen spricht, stößt man schnell auf einen Wust des Mißtrauens gegen das einfach so ins Netz stellen. Viele Autoren denken offensichtlich, sie müssten ihr Werk in jeder Art und Weise gegen eventuellen Mißbrauch schützen. Worin dieser Mißbrauch genau bestehen könnte, ist meist unklar. Auf Nachfrage wurde mir schon diverse Mal “das Copyright” genannt, das es zu schützen gelte. Abgesehen davon, dass es in Deutschland kein Copyright gibt, sondern ein Urheberrecht, hat dessen Durchsetzung auch wenig bis gar nichts 1) Wenn ich §95a des Urheberrechtsgesetz richtig verstehe, ist die Umgehung technischer Kopierbremsen zwar verboten, aber ebenso einfach wie unnötig. mit technischen Sperren zu tun.

Das es im betrieblichen Umfeld Sinn ergeben mag, PDF-Dateien gegen Veränderung zu schützen oder den Empfängerkreis zu begrenzen, ist klar. Aber vor was fürchtet sich ein wissenschaftlicher Autor? Davor, zu oft zitiert zu werden? Wohl kaum. Wovor dann?

References   [ + ]

1. Wenn ich §95a des Urheberrechtsgesetz richtig verstehe, ist die Umgehung technischer Kopierbremsen zwar verboten, aber ebenso einfach wie unnötig.

OpenOffice.org 3.0 ante portas

Golem kündigt OpenOffice.org 3.0 an.

Eine weitere wesentliche Neuerung ist der PDF-Import, mit dem sich existierende PDF-Dateien verändern lassen, auch wenn die originale Quelldatei nicht mehr vorhanden ist. Neu ist auch das Startcenter, das sich nach dem Starten der Anwendung zeigt: Es erlaubt, direkt Dokumente zu öffnen oder neue anzulegen. Bislang startete die Textverarbeitung Writer als Standardapplikation.

Klingt erst einmal richtig gut. Der PDF/A-Support bei OpenOffice.org ist ja ohnehin vorbildlich. Vielleicht tut sich auf diesem Weg nun auch eine Möglichkeit auf, vorhandene PDF-Dateien nachträglich mit eingebetteten Schriften zu versehen?

Der 1. Release-Candidate steht schon zum Download bereit.

Hilferuf zur PDF/A-Konvertierung

Wie man als regelmäßiger Infobibleser sicherlich mitbekommen musste, beschäftigt mich das Thema PDF/A in letzter Zeit in hohem Maße. Immer wieder stoße ich auf Probleme, die zwar nicht ohne Weiteres, aber irgendwie dann doch zu beheben sind. Zwei Fehlermeldungen konnte ich bislang jedoch nicht beseitigen.

  1. Weiten-Informationen für Zeichen sind inkonsistent ist die bei Weitem häufigste Fehlermeldung bei der Konvertierung von ‘normalem’ PDF in PDF/A. Werte Infobib-Leser, gibt es eine Möglichkeit, dies gezielt zu beheben? An Werkzeugen steht u.a. Adobe Acrobat Professional 9.0 inkl. Preflight zur Verfügung.
  2. Gibt es eine Möglichkeit, Schriften nachträglich einzubetten? Das Dokument wird ja schließlich auf dem Monitor angezeigt, also müsste es doch möglich sein, exakt diese Schriftart auch einzubetten?

Für Hinweise auf Lösungsmöglichkeiten wäre ich äußerst dankbar!