OCR (reconocimiento óptico de caracteres)
La tecnología que lee texto de imágenes o PDF escaneados y lo devuelve como caracteres seleccionables y buscables.
OCR significa Optical Character Recognition (reconocimiento óptico de caracteres): el proceso de observar una imagen (una foto de una página, un documento escaneado, una captura de pantalla) y reconocer en ella las letras y palabras. Tras el OCR, puedes buscar, copiar y editar el texto que antes era solo píxeles.
Por qué importa el OCR en los PDF
Los PDF vienen en dos sabores:
- PDF basados en texto. Creados directamente desde Word, LaTeX o una exportación web. El texto vive en el archivo como caracteres reales: puedes copiarlo, buscarlo y las herramientas pueden procesarlo directamente.
- PDF escaneados / basados en imagen. Creados desde un escáner o una foto. Cada página es en esencia una imagen. Tú ves texto en la página, pero los ordenadores solo ven una imagen. Copiar y pegar no funciona. Buscar tampoco.
El OCR cubre ese hueco: lee las imágenes y añade una capa de texto invisible por encima, de modo que el PDF se ve igual pero ahora es buscable.
Límites del OCR
El OCR moderno es muy preciso con texto impreso y limpio en inglés (más del 98 %). La precisión baja con:
- Texto manuscrito (muy difícil)
- Escrituras no latinas (varía según el idioma)
- Escaneos de baja resolución o torcidos
- Fuentes inusuales o mucho formato
Herramientas
- OCR PDF ejecuta Tesseract OCR para añadir una capa de texto buscable a los PDF escaneados
- PDF to Text extrae texto de PDF que ya son basados en texto