Tesseract
El motor OCR (reconocimiento óptico de caracteres) de código abierto más usado, desarrollado originalmente en HP y mantenido ahora por Google.
Tesseract es el motor OCR de código abierto de facto. Desarrollado originalmente en Hewlett-Packard entre 1985 y 1995, liberado en 2005 y mantenido ahora por Google, es el motor OCR de un sinfín de aplicaciones: desde el escaneo de Evernote a proyectos de digitalización académicos, pasando por nuestra propia herramienta OCR PDF.
Qué hace Tesseract
Dada una imagen de texto —un escaneo, una foto, una captura de pantalla—, Tesseract produce:
- El texto reconocido como cadena
- Cuadros delimitadores para cada carácter/palabra/línea
- Puntuaciones de confianza por reconocimiento
- Opcionalmente, una «PDF buscable»: la imagen original con una capa de texto invisible encima
Idiomas
Tesseract incluye archivos de datos entrenados para más de 100 idiomas. La precisión varía de forma significativa:
- Excelente: texto impreso moderno en alfabeto latino (inglés, la mayoría de lenguas europeas), árabe, chino (simplificado y tradicional), coreano, japonés
- Bueno: cirílico, hebreo, tailandés, vietnamita
- Aceptable: inglés manuscrito (limitado), escrituras históricas
- Difícil: escritura cursiva, fuentes muy estilizadas, escaneos de baja resolución
Fortalezas y límites de Tesseract
Es fuerte con escaneos impresos, limpios y bien iluminados a 300 DPI o más. Precisión de caracteres por encima del 98 % de forma constante en documentos de oficina estándar.
Sus límites son la escritura manuscrita (considera Google Vision API o Azure Document Intelligence), las tablas y la reconstrucción de diseños (ABBYY FineReader lo hace mucho mejor) y el OCR en tiempo real en móvil (el framework Vision de Apple y Google ML Kit son más rápidos en el dispositivo).
Para la mayoría de necesidades de escaneo de PDF, Tesseract es la herramienta adecuada al precio adecuado (gratis). Por eso impulsa nuestra herramienta OCR PDF.