OCR (reconnaissance optique de caractères)
La technologie qui lit le texte d'images ou de PDF scannés et le restitue en caractères cherchables et sélectionnables.
OCR signifie Optical Character Recognition (reconnaissance optique de caractères) — le processus consistant à regarder une image (une photo de page, un document scanné, une capture d'écran) et à y reconnaître lettres et mots. Après OCR, vous pouvez rechercher, copier et modifier le texte qui n'était jusque-là que des pixels.
Pourquoi l'OCR est important pour les PDF
Les PDF se présentent sous deux formes :
- PDF à base de texte. Créés directement depuis Word, LaTeX ou un export web. Le texte vit dans le fichier en tant que caractères réels — vous pouvez le copier, le rechercher, et les outils peuvent le traiter directement.
- PDF scannés / à base d'image. Issus d'un scanner ou d'une photo. Chaque page est essentiellement une image. Vous voyez du texte sur la page, mais les ordinateurs ne voient qu'une image. Copier/coller ne fonctionne pas. La recherche ne fonctionne pas.
L'OCR comble l'écart : il lit les images et ajoute une couche de texte invisible par-dessus, si bien que le PDF conserve son apparence mais devient cherchable.
Les limites de l'OCR
L'OCR moderne est très précis sur du texte imprimé et propre en anglais (plus de 98 % de précision). La précision chute sur :
- L'écriture manuscrite (très difficile)
- Les écritures non latines (varie selon la langue)
- Les scans à basse résolution ou de travers
- Les polices inhabituelles ou la mise en forme lourde
Outils
- OCR PDF exécute Tesseract OCR pour ajouter une couche de texte cherchable à des PDF scannés
- PDF to Text extrait le texte de PDF déjà à base de texte