OCRopus

Google hat ein auf Tesseract basierendes Open-Source-OCR-Programm namens OCRopus in einer Alphaversion veröffentlicht. Ars Technica widmet sich diesem Release in einem kleinen Testbericht. Dort zeigt sich, dass sich das Programm zu Recht noch im Alpha-Status befindet:

We observed several common errors. For instance, the letter “e” is often interpreted as a “c” and the letter “o” is often interpreted as a “0” in scanned documents. OCRopus provides better results when scanning text that is printed with a sans serif font, and the size of the font also has a significant effect on accuracy.

Mehr Infos zu OCRopus gibt es in den FAQ. Andere freie Software aus dem OCR-Segment findet sich z.B. bei Sourceforge, u.a. Kognition, Image Text Editor oder Open OCR. Google selbst weist auch auf verschiedene verwandte Anwendungen hin.

[via Digital Koans]

CeBIT 2007

Am Freitag hatte ich die Gelegenheit (vielen Dank an Imageware für die Karte und das nette Gespräch über Digitalisierungsworkflows!), die diesjährige CeBIT besuchen zu können. Der erste Eindruck nach ein paar Jahren Abstinenz: Die Hallen sind leerer geworden, alles ist wesentlich sachlicher, besonders wenn man mit den Dotcom-Jahren vergleicht. Positiv ist zu vermerken, dass die oft gefürchteten Beutelratten kaum zu sehen waren.

CeBIT 2007
„CeBIT 2007“ weiterlesen