Teil der Operation Frühjahrsputz 2015, in deren Verlauf angefangene und nie beendete Postings einfach so veröffentlicht werden.
Ein Problem bei der Erstellung eines Textkorpus ist die oft notwendige Nacharbeit durch mangelhaftes OCR. Beim Text+Berg-Korpus wurde das Problem durch Crowdsourcing mit KOKOS gelöst.
Die Älteren werden sich erinnern, dass ich mich dereinst regelmäßig über die mangelhafte Qualität diverser PDF/A-Exporte mokierte. Fast sieben Jahre später muss man feststellen, dass sich dahingehend einiges zum Besseren gewandelt hat. Ein mir aktuell vorliegendes Beispiel: In der Version 9 lieferte der Abbyy Finereader kein korrektes PDF/A. Der Export der Version 12 (jeweils “Professional”) ist (soweit meine Validierungstools ordentlich arbeiten) tadellos. Abgesehen davon ist die OCR-Erkennungsquote deutlich verbessert.
Office Lens doesn’t just take a picture and import an image into a Word or PowerPoint file. The final Word and PowerPoint documents are real Office documents.
Zumindest im Werbevideo sieht die App, die anscheinend den Einsatz von Microsofts Cloud-Dienst OneDrive zwingend voraussetzt, recht praktisch aus:
Vermutlich möchte Microsoft das Windows Phone durch Apps wie diese stärker im Markt für Geschäftskunden und im akademischen Bereich positionieren. Zumindest im Business-Bereich könnte die Zwangsnutzung von OneDrive jedoch auf Widerstand stoßen. Wer möchte seine Geschäftsgeheimnisse schon in Microsofts Cloud wissen?
Interessant ist die App auf jeden Fall, und hoffentlich ein Ansporn für zahlreiche Konkurrenzprodukte. Weitere Infos zu Office Lens gibt es in Microsofts Office-Blog.
Scans werden gegenüber Kopien zumindest in unserer Bibliothek immer beliebter. Einmal sicherlich, weil sie – anders als Kopien – nichts kosten. Andererseits aber auch, weil Scans leicht zu versenden und speichern sind. Kombiniert man die Scanfunktion mit OCR, kann man die eingescannten Texte noch dazu komfortabel weiternutzen. Die dafür erforderlichen Geräte sind schon längere Zeit in übersichtlichem und tragbarem Format erhältlich.
Da wären zuerst die Scanstifte zu nennen. Es gibt viele verschiedene Produkte, die sich in etlichen Details unterscheiden, davon sind einige schon recht lange auf dem Markt. Der aktuell in der Version 7 verfügbare IRISPen zum Beispiel wurde bereits 2004 in der c’t getestet.
Ich konnte drei Bibliotheken ausmachen, in denen der C-Pen (in der USB-Variante TS1) verliehen wird:
Etwas neuer sind Apps, mit denen man Text abfotografieren und dann in OCR wandeln kann. Der Scanbot – PDF Dokument Scanner zum Beispiel ist solch eine App. Der “Scan” erfolgt in diesem Fall durch Abfotografieren der entsprechenden Vorlagen. Je nach Fotoqualität des verwendeten Smartphones und der Lichtverhältnisse beim Fotografieren sind die Ergebnisse ganz gut bis untauglich. Die dazugehörige OCR-Funktion habe ich nicht getestet.
Kein Scan-Stift (CC-BY: Greg Lloyd)
Fragen an die werte Leserschaft:
Gibt es irgendwo einen halbwegs seriösen und neutralen Vergleich von Scans-Apps?
Gibt es irgendwo einen halbwegs seriösen und neutralen Vergleich von Scanstiften?
Auch über persönliche und subjektive Erfahrungsberichte freue ich mich natürlich sehr!
Das Ergebnis lässt sich leicht zusammenfassen: Die neue Version ist ein Performance-Update! Die Qualität der Text- und Layouterkennung hat sich (so gut wie) gar nicht verändert – die Ergebnisse waren im Vergleich zu FineReader 10 auf gleichbleibend hohem Niveau korrekt. Eine Verbesserung ist nur an ganz wenigen Stellen festzustellen.
Ein Update von Version 10 sei nur empfehlenswert, wenn große Seitenmengen bearbeitet werden müssen.
Der Service der VZG umfasst sowohl Antiqua- als auch Fraktur-Schriften. Je nach Schrifttyp existieren unterschiedliche Abrechnungsmodelle.
Der Preis für Antiqua-OCR liegt bei 0,020 € pro Seite bei weniger als 250.000 Seiten. Bei mehr als 2,5 Millionen Seiten sinkt der Preis auf 0,008 € pro Seite. Fraktur ist ein teurer, da geht es bei 0,075 € pro Seite los. Genaue Preisliste und weitere Informationen – auch zu möglichen Input- und Outputformaten – gibt es im GBV-Wiki.
In einem Testlauf (Besten Dank, Gerald!) wurde Wilhelms Aufruf an das Deutsche Volk eingelesen. Hier das Ergebnis als
Mit der Qualität des Originals steigt und fällt natürlich auch die Qualität des OCR-Ergebnisses. Nimmt man zum Beispiel diesen Scan der Titelseite der ersten Ausgabe der NZZ von 1780, erhält man folgende Ergebnisse:
This is a digital copy of a book that was prcscrvod for gcncrations on library shclvcs bcforc it was carcfully scannod by Google as pari of a projcct to make the world’s books discoverablc online.
Wer noch mehr dieser carefully scanned books sucht, findet sie natürlich auch per Google. Man bediene sich am besten einer Phrasensuche nach “prcscrvod for gcncrations”.
Nach anfänglich gutem Kontakt blieben dann nach und nach die Antworten aus.
Der anfänglich gute Kontakt ist wieder aufgenommen. Wie ich nun erfuhr: Das von mir zur Evaluation der Standardkompatibilität verwendete Preflight-Modul arbeitet in den verschiedenen Adobe-Versionen unterschiedlich. Erst ab Adobe Acrobat 9.0 Pro arbeitet Preflight korrekt, wie auch Leonard Rosenthol (“Technical Standards Evangelist for Adobe Systems that focuses on PDF Standards”), bestätigt:
NOTE: this may/will mean that what you saw in Acrobat/Reader 8 and earlier does not match what you are seeing in Acrobat/Reader 9 when viewing standards-complaint files. But guess what – that’s because Acrobat 9 is now correct!
Wenn das Validierungstool nicht korrekt arbeitet, kann man nicht standardkonform entwickeln. Abbyy hat allerdings zugesichert, dass der Finereader in Kürze an die (korrekte) Validierung nach Adobe Acrobat 9 Pro angepasst wird. Der Abbyy Recognition Server arbeitet bereits standardkonform.
Sebastian Wolf machte in Inetbib auf Risiken und Nebenwirkungen der automatischen Metadatengeneration durch Google aufmerksam.
Google Scholar kümmert sich auch nicht um die Original-Metadaten aus den Dokumentenservern, sondern indexiert Autorennamen etc. per automatischer Texterkennung. Die Metadaten von Dokumentenservern sind in der Tat manchmal erstaunlich schlecht, aber die automatische Autorenerkennung macht z.B. “F Password”, “D Surgery” und “I View” zu erfolgreichen und vielzitierten Autoren in Google Scholar.
Es gibt sogar einen Aufsatz, der von allen Dreien gemeinsam geschrieben wurde. Dort bestätigt sich auch, was sich schon bei einem Überfliegen der Ergebnislisten der anderen “Top-Autoren” aufdrängt: zwei von drei Versionen des Werkes werden mit korrekten Autorenangaben versehen, nur bei Blackwell Synergy schlägt die Interpretation stets fehl.
Allerdings sind Blackwell-Autoren nicht das einzige Opfer der fehlerhaften Autorenerkennung. Wenn man nach Reputationseffekt erhält man auch gleich als erstes ein Werk von “F Wirtschaftswissenschaften” angeboten.
Bleibt nur zu hoffen, dass F. Wirtschaftswissenschaften (bestimmt ein guter Freund von F. Informationswissenschaft, der wiederum sehr viel mit F. Potsdam veröffentlicht) in nicht-deutschsprachigen Ländern nicht tatsächlich ab und an als Autor angegeben wird.