Tesseract — PDF Glossary | PDF Genie

Tesseract est le moteur OCR open source de référence. Développé à l'origine chez Hewlett-Packard entre 1985 et 1995, ouvert en 2005 et aujourd'hui maintenu par Google, il anime l'OCR d'innombrables applications — du scanner d'Evernote aux projets de numérisation universitaire, en passant par notre propre outil OCR PDF.

Ce que fait Tesseract

À partir d'une image de texte — un scan, une photographie, une capture d'écran — Tesseract produit :

Le texte reconnu sous forme de chaîne
Des boîtes englobantes pour chaque caractère/mot/ligne
Des scores de confiance par reconnaissance
En option, une surcouche « PDF cherchable » — l'image d'origine avec une couche de texte invisible par-dessus

Langues

Tesseract est livré avec des fichiers de données entraînées pour plus de 100 langues. La précision varie fortement :

Excellent — textes imprimés modernes en écriture latine (anglais, la plupart des langues européennes), arabe, chinois (simplifié et traditionnel), coréen, japonais
Bon — cyrillique, hébreu, thaï, vietnamien
Exploitable — anglais manuscrit (limité), écritures historiques
Difficile — écriture cursive, polices très stylisées, scans basse résolution

Forces et limites de Tesseract

Fort sur — scans propres, imprimés, bien éclairés à 300 DPI ou plus. Précision caractère supérieure à 98 % de manière constante sur des documents de bureau standard.

Limites — écriture manuscrite (préférez alors Google Vision API ou Azure Document Intelligence), reconstruction de tableaux et de mises en page (ABBYY FineReader fait bien mieux), et OCR en temps réel sur mobile (le framework Vision d'Apple et Google ML Kit sont plus rapides sur l'appareil).

Pour la plupart des besoins de numérisation de PDF, Tesseract est le bon outil au bon prix (gratuit). C'est pourquoi il alimente notre outil OCR PDF.

Ce que fait Tesseract

Langues

Forces et limites de Tesseract

Outils associés