PDF GeniePDF Genie

Tesseract

Die am weitesten verbreitete quelloffene OCR-Engine (optische Zeichenerkennung) – ursprünglich bei HP entwickelt, heute von Google gepflegt.

Tesseract ist die De-facto-quelloffene OCR-Engine. Ursprünglich zwischen 1985 und 1995 bei Hewlett-Packard entwickelt, 2005 quelloffen gemacht und heute von Google gepflegt, treibt sie OCR in unzähligen Anwendungen an – vom Scanning in Evernote bis zu akademischen Digitalisierungsprojekten und unserem eigenen OCR PDF-Tool.

Was Tesseract macht

Bei einem Bild von Text – einem Scan, einem Foto, einem Screenshot – liefert Tesseract:

  • Den erkannten Text als Zeichenkette
  • Umgrenzungsrahmen für jedes Zeichen/Wort/jede Zeile
  • Konfidenzwerte pro Erkennung
  • Optional eine „durchsuchbare PDF"-Überlagerung – das Originalbild mit einer unsichtbaren Textebene darüber

Sprachen

Tesseract wird mit trainierten Datendateien für über 100 Sprachen ausgeliefert. Die Genauigkeit variiert erheblich:

  • Hervorragend – moderner, gedruckter Text in lateinischer Schrift (Englisch, die meisten europäischen Sprachen), Arabisch, Chinesisch (vereinfacht und traditionell), Koreanisch, Japanisch
  • Gut – Kyrillisch, Hebräisch, Thai, Vietnamesisch
  • Brauchbar – handschriftliches Englisch (begrenzt), historische Schriften
  • Anspruchsvoll – Kursivhandschrift, stark stilisierte Schriftarten, Scans niedriger Auflösung

Stärken und Grenzen von Tesseract

Stark bei – sauberen, gedruckten, gut ausgeleuchteten Scans bei 300 DPI oder höher. Durchgängig über 98 % Zeichengenauigkeit bei Standard-Bürodokumenten.

Grenzen – Handschrift (stattdessen Google Vision API oder Azure Document Intelligence in Betracht ziehen), Tabellen und Layout-Rekonstruktion (ABBYY FineReader macht das viel besser) sowie Echtzeit-OCR auf Mobilgeräten (Apples Vision-Framework und Google ML Kit sind auf dem Gerät schneller).

Für die meisten PDF-Scanning-Bedürfnisse ist Tesseract das richtige Werkzeug zum richtigen Preis (kostenlos). Deshalb treibt es unser OCR-PDF-Tool an.

Verwandte Tools