Tesseract — PDF Glossary | PDF Genie

Tesseract es el motor OCR de código abierto de facto. Desarrollado originalmente en Hewlett-Packard entre 1985 y 1995, liberado en 2005 y mantenido ahora por Google, es el motor OCR de un sinfín de aplicaciones: desde el escaneo de Evernote a proyectos de digitalización académicos, pasando por nuestra propia herramienta OCR PDF.

Qué hace Tesseract

Dada una imagen de texto —un escaneo, una foto, una captura de pantalla—, Tesseract produce:

El texto reconocido como cadena
Cuadros delimitadores para cada carácter/palabra/línea
Puntuaciones de confianza por reconocimiento
Opcionalmente, una «PDF buscable»: la imagen original con una capa de texto invisible encima

Idiomas

Tesseract incluye archivos de datos entrenados para más de 100 idiomas. La precisión varía de forma significativa:

Excelente: texto impreso moderno en alfabeto latino (inglés, la mayoría de lenguas europeas), árabe, chino (simplificado y tradicional), coreano, japonés
Bueno: cirílico, hebreo, tailandés, vietnamita
Aceptable: inglés manuscrito (limitado), escrituras históricas
Difícil: escritura cursiva, fuentes muy estilizadas, escaneos de baja resolución

Fortalezas y límites de Tesseract

Es fuerte con escaneos impresos, limpios y bien iluminados a 300 DPI o más. Precisión de caracteres por encima del 98 % de forma constante en documentos de oficina estándar.

Sus límites son la escritura manuscrita (considera Google Vision API o Azure Document Intelligence), las tablas y la reconstrucción de diseños (ABBYY FineReader lo hace mucho mejor) y el OCR en tiempo real en móvil (el framework Vision de Apple y Google ML Kit son más rápidos en el dispositivo).

Para la mayoría de necesidades de escaneo de PDF, Tesseract es la herramienta adecuada al precio adecuado (gratis). Por eso impulsa nuestra herramienta OCR PDF.

Qué hace Tesseract

Idiomas

Fortalezas y límites de Tesseract

Herramientas relacionadas