OCR (Optische Zeichenerkennung) — PDF Glossary

OCR steht für Optical Character Recognition – Optische Zeichenerkennung – den Prozess, ein Bild (ein Seitenfoto, ein gescanntes Dokument, ein Screenshot) zu betrachten und die darin enthaltenen Buchstaben und Wörter zu erkennen. Nach OCR können Sie den Text, der zuvor nur Pixel war, durchsuchen, kopieren und bearbeiten.

Warum OCR für PDFs wichtig ist

PDFs gibt es in zwei Varianten:

Textbasierte PDFs. Direkt aus Word, LaTeX oder einem Web-Export erstellt. Der Text lebt als echte Zeichen in der Datei – Sie können ihn kopieren, durchsuchen, und Tools können ihn direkt verarbeiten.
Gescannte / bildbasierte PDFs. Aus einem Scanner oder Foto erstellt. Jede Seite ist im Grunde ein Bild. Sie sehen Text auf der Seite, Computer sehen nur ein Bild. Kopieren funktioniert nicht. Suchen funktioniert nicht.

OCR überbrückt die Lücke: Es liest die Bilder und fügt eine unsichtbare Textebene darüber hinzu, sodass die PDF identisch aussieht, aber nun durchsuchbar ist.

Grenzen von OCR

Moderne OCR ist bei sauberem, gedrucktem englischem Text sehr genau (98 %+ Genauigkeit). Die Genauigkeit sinkt bei:

Handschrift (sehr anspruchsvoll)
Nicht-lateinischen Schriften (variiert je nach Sprache)
Scans mit niedriger Auflösung oder schräg
Ungewöhnlichen Schriftarten oder starker Formatierung

Werkzeuge

OCR PDF führt Tesseract OCR aus, um gescannten PDFs eine durchsuchbare Textebene hinzuzufügen
PDF to Text extrahiert Text aus bereits textbasierten PDFs

Warum OCR für PDFs wichtig ist

Grenzen von OCR

Werkzeuge

Verwandte Tools