Tesseract — PDF Glossary | PDF Genie

Tesseract ist die De-facto-quelloffene OCR-Engine. Ursprünglich zwischen 1985 und 1995 bei Hewlett-Packard entwickelt, 2005 quelloffen gemacht und heute von Google gepflegt, treibt sie OCR in unzähligen Anwendungen an – vom Scanning in Evernote bis zu akademischen Digitalisierungsprojekten und unserem eigenen OCR PDF-Tool.

Was Tesseract macht

Bei einem Bild von Text – einem Scan, einem Foto, einem Screenshot – liefert Tesseract:

Den erkannten Text als Zeichenkette
Umgrenzungsrahmen für jedes Zeichen/Wort/jede Zeile
Konfidenzwerte pro Erkennung
Optional eine „durchsuchbare PDF"-Überlagerung – das Originalbild mit einer unsichtbaren Textebene darüber

Sprachen

Tesseract wird mit trainierten Datendateien für über 100 Sprachen ausgeliefert. Die Genauigkeit variiert erheblich:

Hervorragend – moderner, gedruckter Text in lateinischer Schrift (Englisch, die meisten europäischen Sprachen), Arabisch, Chinesisch (vereinfacht und traditionell), Koreanisch, Japanisch
Gut – Kyrillisch, Hebräisch, Thai, Vietnamesisch
Brauchbar – handschriftliches Englisch (begrenzt), historische Schriften
Anspruchsvoll – Kursivhandschrift, stark stilisierte Schriftarten, Scans niedriger Auflösung

Stärken und Grenzen von Tesseract

Stark bei – sauberen, gedruckten, gut ausgeleuchteten Scans bei 300 DPI oder höher. Durchgängig über 98 % Zeichengenauigkeit bei Standard-Bürodokumenten.

Grenzen – Handschrift (stattdessen Google Vision API oder Azure Document Intelligence in Betracht ziehen), Tabellen und Layout-Rekonstruktion (ABBYY FineReader macht das viel besser) sowie Echtzeit-OCR auf Mobilgeräten (Apples Vision-Framework und Google ML Kit sind auf dem Gerät schneller).

Für die meisten PDF-Scanning-Bedürfnisse ist Tesseract das richtige Werkzeug zum richtigen Preis (kostenlos). Deshalb treibt es unser OCR-PDF-Tool an.

Was Tesseract macht

Sprachen

Stärken und Grenzen von Tesseract

Verwandte Tools