OCRopus

Google hat ein auf Tesseract basierendes Open-Source-OCR-Programm namens OCRopus in einer Alphaversion veröffentlicht. Ars Technica widmet sich diesem Release in einem kleinen Testbericht. Dort zeigt sich, dass sich das Programm zu Recht noch im Alpha-Status befindet:

We observed several common errors. For instance, the letter “e” is often interpreted as a “c” and the letter “o” is often interpreted as a “0” in scanned documents. OCRopus provides better results when scanning text that is printed with a sans serif font, and the size of the font also has a significant effect on accuracy.

Mehr Infos zu OCRopus gibt es in den FAQ. Andere freie Software aus dem OCR-Segment findet sich z.B. bei Sourceforge, u.a. Kognition, Image Text Editor oder Open OCR. Google selbst weist auch auf verschiedene verwandte Anwendungen hin.

[via Digital Koans]