PDF GeniePDF Genie

Tesseract

Le moteur OCR (reconnaissance optique de caractères) open source le plus répandu — développé à l'origine chez HP, aujourd'hui maintenu par Google.

Tesseract est le moteur OCR open source de référence. Développé à l'origine chez Hewlett-Packard entre 1985 et 1995, ouvert en 2005 et aujourd'hui maintenu par Google, il anime l'OCR d'innombrables applications — du scanner d'Evernote aux projets de numérisation universitaire, en passant par notre propre outil OCR PDF.

Ce que fait Tesseract

À partir d'une image de texte — un scan, une photographie, une capture d'écran — Tesseract produit :

  • Le texte reconnu sous forme de chaîne
  • Des boîtes englobantes pour chaque caractère/mot/ligne
  • Des scores de confiance par reconnaissance
  • En option, une surcouche « PDF cherchable » — l'image d'origine avec une couche de texte invisible par-dessus

Langues

Tesseract est livré avec des fichiers de données entraînées pour plus de 100 langues. La précision varie fortement :

  • Excellent — textes imprimés modernes en écriture latine (anglais, la plupart des langues européennes), arabe, chinois (simplifié et traditionnel), coréen, japonais
  • Bon — cyrillique, hébreu, thaï, vietnamien
  • Exploitable — anglais manuscrit (limité), écritures historiques
  • Difficile — écriture cursive, polices très stylisées, scans basse résolution

Forces et limites de Tesseract

Fort sur — scans propres, imprimés, bien éclairés à 300 DPI ou plus. Précision caractère supérieure à 98 % de manière constante sur des documents de bureau standard.

Limites — écriture manuscrite (préférez alors Google Vision API ou Azure Document Intelligence), reconstruction de tableaux et de mises en page (ABBYY FineReader fait bien mieux), et OCR en temps réel sur mobile (le framework Vision d'Apple et Google ML Kit sont plus rapides sur l'appareil).

Pour la plupart des besoins de numérisation de PDF, Tesseract est le bon outil au bon prix (gratuit). C'est pourquoi il alimente notre outil OCR PDF.

Outils associés