OCR (reconnaissance optique de caractères) — PDF Glossary

OCR signifie Optical Character Recognition (reconnaissance optique de caractères) — le processus consistant à regarder une image (une photo de page, un document scanné, une capture d'écran) et à y reconnaître lettres et mots. Après OCR, vous pouvez rechercher, copier et modifier le texte qui n'était jusque-là que des pixels.

Pourquoi l'OCR est important pour les PDF

Les PDF se présentent sous deux formes :

PDF à base de texte. Créés directement depuis Word, LaTeX ou un export web. Le texte vit dans le fichier en tant que caractères réels — vous pouvez le copier, le rechercher, et les outils peuvent le traiter directement.
PDF scannés / à base d'image. Issus d'un scanner ou d'une photo. Chaque page est essentiellement une image. Vous voyez du texte sur la page, mais les ordinateurs ne voient qu'une image. Copier/coller ne fonctionne pas. La recherche ne fonctionne pas.

L'OCR comble l'écart : il lit les images et ajoute une couche de texte invisible par-dessus, si bien que le PDF conserve son apparence mais devient cherchable.

Les limites de l'OCR

L'OCR moderne est très précis sur du texte imprimé et propre en anglais (plus de 98 % de précision). La précision chute sur :

L'écriture manuscrite (très difficile)
Les écritures non latines (varie selon la langue)
Les scans à basse résolution ou de travers
Les polices inhabituelles ou la mise en forme lourde

Outils

OCR PDF exécute Tesseract OCR pour ajouter une couche de texte cherchable à des PDF scannés
PDF to Text extrait le texte de PDF déjà à base de texte

Pourquoi l'OCR est important pour les PDF

Les limites de l'OCR

Outils

Outils associés