Tesseract
Die am weitesten verbreitete quelloffene OCR-Engine (optische Zeichenerkennung) – ursprünglich bei HP entwickelt, heute von Google gepflegt.
Tesseract ist die De-facto-quelloffene OCR-Engine. Ursprünglich zwischen 1985 und 1995 bei Hewlett-Packard entwickelt, 2005 quelloffen gemacht und heute von Google gepflegt, treibt sie OCR in unzähligen Anwendungen an – vom Scanning in Evernote bis zu akademischen Digitalisierungsprojekten und unserem eigenen OCR PDF-Tool.
Was Tesseract macht
Bei einem Bild von Text – einem Scan, einem Foto, einem Screenshot – liefert Tesseract:
- Den erkannten Text als Zeichenkette
- Umgrenzungsrahmen für jedes Zeichen/Wort/jede Zeile
- Konfidenzwerte pro Erkennung
- Optional eine „durchsuchbare PDF"-Überlagerung – das Originalbild mit einer unsichtbaren Textebene darüber
Sprachen
Tesseract wird mit trainierten Datendateien für über 100 Sprachen ausgeliefert. Die Genauigkeit variiert erheblich:
- Hervorragend – moderner, gedruckter Text in lateinischer Schrift (Englisch, die meisten europäischen Sprachen), Arabisch, Chinesisch (vereinfacht und traditionell), Koreanisch, Japanisch
- Gut – Kyrillisch, Hebräisch, Thai, Vietnamesisch
- Brauchbar – handschriftliches Englisch (begrenzt), historische Schriften
- Anspruchsvoll – Kursivhandschrift, stark stilisierte Schriftarten, Scans niedriger Auflösung
Stärken und Grenzen von Tesseract
Stark bei – sauberen, gedruckten, gut ausgeleuchteten Scans bei 300 DPI oder höher. Durchgängig über 98 % Zeichengenauigkeit bei Standard-Bürodokumenten.
Grenzen – Handschrift (stattdessen Google Vision API oder Azure Document Intelligence in Betracht ziehen), Tabellen und Layout-Rekonstruktion (ABBYY FineReader macht das viel besser) sowie Echtzeit-OCR auf Mobilgeräten (Apples Vision-Framework und Google ML Kit sind auf dem Gerät schneller).
Für die meisten PDF-Scanning-Bedürfnisse ist Tesseract das richtige Werkzeug zum richtigen Preis (kostenlos). Deshalb treibt es unser OCR-PDF-Tool an.