OCR (reconocimiento óptico de caracteres) — PDF Glossary

OCR significa Optical Character Recognition (reconocimiento óptico de caracteres): el proceso de observar una imagen (una foto de una página, un documento escaneado, una captura de pantalla) y reconocer en ella las letras y palabras. Tras el OCR, puedes buscar, copiar y editar el texto que antes era solo píxeles.

Por qué importa el OCR en los PDF

Los PDF vienen en dos sabores:

PDF basados en texto. Creados directamente desde Word, LaTeX o una exportación web. El texto vive en el archivo como caracteres reales: puedes copiarlo, buscarlo y las herramientas pueden procesarlo directamente.
PDF escaneados / basados en imagen. Creados desde un escáner o una foto. Cada página es en esencia una imagen. Tú ves texto en la página, pero los ordenadores solo ven una imagen. Copiar y pegar no funciona. Buscar tampoco.

El OCR cubre ese hueco: lee las imágenes y añade una capa de texto invisible por encima, de modo que el PDF se ve igual pero ahora es buscable.

Límites del OCR

El OCR moderno es muy preciso con texto impreso y limpio en inglés (más del 98 %). La precisión baja con:

Texto manuscrito (muy difícil)
Escrituras no latinas (varía según el idioma)
Escaneos de baja resolución o torcidos
Fuentes inusuales o mucho formato

Herramientas

OCR PDF ejecuta Tesseract OCR para añadir una capa de texto buscable a los PDF escaneados
PDF to Text extrae texto de PDF que ya son basados en texto

Por qué importa el OCR en los PDF

Límites del OCR

Herramientas

Herramientas relacionadas