Abbyy Finereader 12 Professional mit gutem OCR und validem PDF/A

Die Älteren werden sich erinnern, dass ich mich dereinst regelmäßig über die mangelhafte Qualität diverser PDF/A-Exporte mokierte. Fast sieben Jahre später muss man feststellen, dass sich dahingehend einiges zum Besseren gewandelt hat. Ein mir aktuell vorliegendes Beispiel: In der Version 9 lieferte der Abbyy Finereader kein korrektes PDF/A. Der Export der Version 12 (jeweils “Professional”) ist (soweit meine Validierungstools ordentlich arbeiten) tadellos. Abgesehen davon ist die OCR-Erkennungsquote deutlich verbessert.

Windows-App Office Lens

J.C. machte in einem Kommentar zu meinem Posting über Scan-Stiften und -Apps auf eine neue und kostenlose App für Windows Phones aufmerksam: Office Lens.

Office Lens doesn’t just take a picture and import an image into a Word or PowerPoint file. The final Word and PowerPoint documents are real Office documents.

Zumindest im Werbevideo sieht die App, die anscheinend den Einsatz von Microsofts Cloud-Dienst OneDrive zwingend voraussetzt, recht praktisch aus:

Vermutlich möchte Microsoft das Windows Phone durch Apps wie diese stärker im Markt für Geschäftskunden und im akademischen Bereich positionieren. Zumindest im Business-Bereich könnte die Zwangsnutzung von OneDrive jedoch auf Widerstand stoßen. Wer möchte seine Geschäftsgeheimnisse schon in Microsofts Cloud wissen?

Interessant ist die App auf jeden Fall, und hoffentlich ein Ansporn für zahlreiche Konkurrenzprodukte. Weitere Infos zu Office Lens gibt es in Microsofts Office-Blog.

Scan-Stifte und -Apps

Scans werden gegenüber Kopien zumindest in unserer Bibliothek immer beliebter. Einmal sicherlich, weil sie – anders als Kopien – nichts kosten. Andererseits aber auch, weil Scans leicht zu versenden und speichern sind. Kombiniert man die Scanfunktion mit OCR, kann man die eingescannten Texte noch dazu komfortabel weiternutzen. Die dafür erforderlichen Geräte sind schon längere Zeit in übersichtlichem und tragbarem Format erhältlich.

Da wären zuerst die Scanstifte zu nennen. Es gibt viele verschiedene Produkte, die sich in etlichen Details unterscheiden, davon sind einige schon recht lange auf dem Markt. Der aktuell in der Version 7 verfügbare IRISPen zum Beispiel wurde bereits 2004 in der c’t getestet.

Ich konnte drei Bibliotheken ausmachen, in denen der C-Pen (in der USB-Variante TS1) verliehen wird:

  1. Bibliothek der Hochschule Augsburg (besten Dank für die vielen Infos!)
  2. Universitätsbibliothek Augsburg
  3. Bibliothek der Hochschule Neu-Ulm

Etwas neuer sind Apps, mit denen man Text abfotografieren und dann in OCR wandeln kann. Der Scanbot – PDF Dokument Scanner zum Beispiel ist solch eine App. Der “Scan” erfolgt in diesem Fall durch Abfotografieren der entsprechenden Vorlagen. Je nach Fotoqualität des verwendeten Smartphones und der Lichtverhältnisse beim Fotografieren sind die Ergebnisse ganz gut bis untauglich. Die dazugehörige OCR-Funktion habe ich nicht getestet.

Kein Scan-Stift (CC-BY: Greg Lloyd)

Fragen an die werte Leserschaft:

  1. Gibt es irgendwo einen halbwegs seriösen und neutralen Vergleich von Scans-Apps?
  2. Gibt es irgendwo einen halbwegs seriösen und neutralen Vergleich von Scanstiften?

Auch über persönliche und subjektive Erfahrungsberichte freue ich mich natürlich sehr!

Abbyy Finereader 11 im Test

Kilian Schmidtner hat die Abbyy Finereader 11 getestet:

Das Ergebnis lässt sich leicht zusammenfassen: Die neue Version ist ein Performance-Update! Die Qualität der Text- und Layouterkennung hat sich (so gut wie) gar nicht verändert – die Ergebnisse waren im Vergleich zu FineReader 10 auf gleichbleibend hohem Niveau korrekt. Eine Verbesserung ist nur an ganz wenigen Stellen festzustellen.

Ein Update von Version 10 sei nur empfehlenswert, wenn große Seitenmengen bearbeitet werden müssen.

Mehr Infos im Editura-Blog.

OCR-Service der VZG

Die Verbundzentrale des GBV (VZG) bietet ab sofort einen Massen-OCR-Service an:

Der Service der VZG umfasst sowohl Antiqua- als auch Fraktur-Schriften. Je nach Schrifttyp existieren unterschiedliche Abrechnungsmodelle.

Der Preis für Antiqua-OCR liegt bei 0,020 € pro Seite bei weniger als 250.000 Seiten. Bei mehr als 2,5 Millionen Seiten sinkt der Preis auf 0,008 € pro Seite. Fraktur ist ein teurer, da geht es bei 0,075 € pro Seite los. Genaue Preisliste und weitere Informationen – auch zu möglichen Input- und Outputformaten – gibt es im GBV-Wiki.

In einem Testlauf (Besten Dank, Gerald!) wurde Wilhelms Aufruf an das Deutsche Volk eingelesen. Hier das Ergebnis als

Mit der Qualität des Originals steigt und fällt natürlich auch die Qualität des OCR-Ergebnisses. Nimmt man zum Beispiel diesen Scan der Titelseite der ersten Ausgabe der NZZ von 1780, erhält man folgende Ergebnisse:

Gemessen am Original gar nicht schlecht. Kontaktdaten und weitere Informationen im GBV-Wiki.

Prcscrvod for gcncrations! Googles ladinischer OCR-Unfall

Ok, OCR-Unfälle sind nichts besonderes. Dennoch: Wer sich bei Archive.org den Volltext der “ladinischen Idiome in Ladinien, Gröden Fassa, Buchenstein, Ampezzo” ansehen möchte, stößt auf folgende einleitende Bemerkung:

ocr_unfall

This is a digital copy of a book that was prcscrvod for gcncrations on library shclvcs bcforc it was carcfully scannod by Google as pari of a projcct to make the world’s books discoverablc online.

Ist das ein grödenfassadisches Ladiner-Idiom? 1337 sp3@k? Googles Mitarbeiter neigen ja zu so etwas.

Wer noch mehr dieser carefully scanned books sucht, findet sie natürlich auch per Google. Man bediene sich am besten einer Phrasensuche nach “prcscrvod for gcncrations”.

Abbyy Finereader: Guter Support und bald auch korrektes PDF/A

Zeit für eine kleine Korrektur. Am 18. November bemängelte ich den Support bei Abbyy und auch den fehlerhaften PDF/A-Export. Ich schrieb:

Nach anfänglich gutem Kontakt blieben dann nach und nach die Antworten aus.

Der anfänglich gute Kontakt ist wieder aufgenommen. Wie ich nun erfuhr: Das von mir zur Evaluation der Standardkompatibilität verwendete Preflight-Modul arbeitet in den verschiedenen Adobe-Versionen unterschiedlich. Erst ab Adobe Acrobat 9.0 Pro arbeitet Preflight korrekt, wie auch Leonard Rosenthol (“Technical Standards Evangelist for Adobe Systems that focuses on PDF Standards”), bestätigt:

NOTE: this may/will mean that what you saw in Acrobat/Reader 8 and earlier does not match what you are seeing in Acrobat/Reader 9 when viewing standards-complaint files. But guess what – that’s because Acrobat 9 is now correct!

Wenn das Validierungstool nicht korrekt arbeitet, kann man nicht standardkonform entwickeln. Abbyy hat allerdings zugesichert, dass der Finereader in Kürze an die (korrekte) Validierung nach Adobe Acrobat 9 Pro angepasst wird. Der Abbyy Recognition Server arbeitet bereits standardkonform.

Abbyy Finereader Professional: fehlerhaftes PDF/A und schlechter Support

Update: Die Ursache des Bugs liegt nicht bei Abbyy. Mehr Infos gibt es hier:
Abbyy Finereader: Guter Support und bald auch korrektes PDF/A

Abbyy wirbt mit PDF/A-Export für den Abbyy Finereader Professional, schon ab Version 8.1. Der PDF/A-Export ist jedoch fehlerhaft.
„Abbyy Finereader Professional: fehlerhaftes PDF/A und schlechter Support“ weiterlesen

Blackwell Synergy von Google Scholar mißverstanden

Sebastian Wolf machte in Inetbib auf Risiken und Nebenwirkungen der automatischen Metadatengeneration durch Google aufmerksam.

Google Scholar kümmert sich auch nicht um die Original-Metadaten aus den Dokumentenservern, sondern indexiert Autorennamen etc. per automatischer Texterkennung. Die Metadaten von Dokumentenservern sind in der Tat manchmal erstaunlich schlecht, aber die automatische Autorenerkennung macht z.B. “F Password”, “D Surgery” und “I View” zu erfolgreichen und vielzitierten Autoren in Google Scholar.

Es gibt sogar einen Aufsatz, der von allen Dreien gemeinsam geschrieben wurde. Dort bestätigt sich auch, was sich schon bei einem Überfliegen der Ergebnislisten der anderen “Top-Autoren” aufdrängt: zwei von drei Versionen des Werkes werden mit korrekten Autorenangaben versehen, nur bei Blackwell Synergy schlägt die Interpretation stets fehl.

Allerdings sind Blackwell-Autoren nicht das einzige Opfer der fehlerhaften Autorenerkennung. Wenn man nach Reputationseffekt erhält man auch gleich als erstes ein Werk von “F Wirtschaftswissenschaften” angeboten.

Bleibt nur zu hoffen, dass F. Wirtschaftswissenschaften (bestimmt ein guter Freund von F. Informationswissenschaft, der wiederum sehr viel mit F. Potsdam veröffentlicht) in nicht-deutschsprachigen Ländern nicht tatsächlich ab und an als Autor angegeben wird.