Abbyy Finereader 12 Professional mit gutem OCR und validem PDF/A

Die Älteren werden sich erinnern, dass ich mich dereinst regelmäßig über die mangelhafte Qualität diverser PDF/A-Exporte mokierte. Fast sieben Jahre später muss man feststellen, dass sich dahingehend einiges zum Besseren gewandelt hat. Ein mir aktuell vorliegendes Beispiel: In der Version 9 lieferte der Abbyy Finereader kein korrektes PDF/A. Der Export der Version 12 (jeweils “Professional”) ist (soweit meine Validierungstools ordentlich arbeiten) tadellos. Abgesehen davon ist die OCR-Erkennungsquote deutlich verbessert.

Abbyy Finereader 11 im Test

Kilian Schmidtner hat die Abbyy Finereader 11 getestet:

Das Ergebnis lässt sich leicht zusammenfassen: Die neue Version ist ein Performance-Update! Die Qualität der Text- und Layouterkennung hat sich (so gut wie) gar nicht verändert – die Ergebnisse waren im Vergleich zu FineReader 10 auf gleichbleibend hohem Niveau korrekt. Eine Verbesserung ist nur an ganz wenigen Stellen festzustellen.

Ein Update von Version 10 sei nur empfehlenswert, wenn große Seitenmengen bearbeitet werden müssen.

Mehr Infos im Editura-Blog.

OCR-Service der VZG

Die Verbundzentrale des GBV (VZG) bietet ab sofort einen Massen-OCR-Service an:

Der Service der VZG umfasst sowohl Antiqua- als auch Fraktur-Schriften. Je nach Schrifttyp existieren unterschiedliche Abrechnungsmodelle.

Der Preis für Antiqua-OCR liegt bei 0,020 € pro Seite bei weniger als 250.000 Seiten. Bei mehr als 2,5 Millionen Seiten sinkt der Preis auf 0,008 € pro Seite. Fraktur ist ein teurer, da geht es bei 0,075 € pro Seite los. Genaue Preisliste und weitere Informationen – auch zu möglichen Input- und Outputformaten – gibt es im GBV-Wiki.

In einem Testlauf (Besten Dank, Gerald!) wurde Wilhelms Aufruf an das Deutsche Volk eingelesen. Hier das Ergebnis als

Mit der Qualität des Originals steigt und fällt natürlich auch die Qualität des OCR-Ergebnisses. Nimmt man zum Beispiel diesen Scan der Titelseite der ersten Ausgabe der NZZ von 1780, erhält man folgende Ergebnisse:

Gemessen am Original gar nicht schlecht. Kontaktdaten und weitere Informationen im GBV-Wiki.

Abbyy Finereader: Guter Support und bald auch korrektes PDF/A

Zeit für eine kleine Korrektur. Am 18. November bemängelte ich den Support bei Abbyy und auch den fehlerhaften PDF/A-Export. Ich schrieb:

Nach anfänglich gutem Kontakt blieben dann nach und nach die Antworten aus.

Der anfänglich gute Kontakt ist wieder aufgenommen. Wie ich nun erfuhr: Das von mir zur Evaluation der Standardkompatibilität verwendete Preflight-Modul arbeitet in den verschiedenen Adobe-Versionen unterschiedlich. Erst ab Adobe Acrobat 9.0 Pro arbeitet Preflight korrekt, wie auch Leonard Rosenthol (“Technical Standards Evangelist for Adobe Systems that focuses on PDF Standards”), bestätigt:

NOTE: this may/will mean that what you saw in Acrobat/Reader 8 and earlier does not match what you are seeing in Acrobat/Reader 9 when viewing standards-complaint files. But guess what – that’s because Acrobat 9 is now correct!

Wenn das Validierungstool nicht korrekt arbeitet, kann man nicht standardkonform entwickeln. Abbyy hat allerdings zugesichert, dass der Finereader in Kürze an die (korrekte) Validierung nach Adobe Acrobat 9 Pro angepasst wird. Der Abbyy Recognition Server arbeitet bereits standardkonform.

Abbyy Finereader Professional: fehlerhaftes PDF/A und schlechter Support

Update: Die Ursache des Bugs liegt nicht bei Abbyy. Mehr Infos gibt es hier:
Abbyy Finereader: Guter Support und bald auch korrektes PDF/A

Abbyy wirbt mit PDF/A-Export für den Abbyy Finereader Professional, schon ab Version 8.1. Der PDF/A-Export ist jedoch fehlerhaft.
Continue reading “Abbyy Finereader Professional: fehlerhaftes PDF/A und schlechter Support”