OCR (Optik Karakter Tanıma) — PDF Glossary

OCR, Optik Karakter Tanıma (Optical Character Recognition) anlamına gelir — bir görüntüye (sayfanın fotoğrafı, taranmış belge, ekran görüntüsü) bakıp içindeki harfleri ve sözcükleri tanıma sürecidir. OCR'dan sonra daha önce yalnızca piksel olan metni arayabilir, kopyalayabilir ve düzenleyebilirsiniz.

OCR neden PDF'ler için önemli

PDF'ler iki biçimde gelir:

Metin tabanlı PDF'ler. Doğrudan Word, LaTeX veya web dışa aktarmasından oluşturulmuştur. Metin dosyada gerçek karakterler olarak yaşar — kopyalayabilir, arayabilir ve araçlar doğrudan işleyebilir.
Taranmış / görüntü tabanlı PDF'ler. Bir tarayıcıdan veya fotoğraftan oluşturulmuştur. Her sayfa esas olarak bir resimdir. Sayfadaki metni görebilirsiniz, ancak bilgisayarlar yalnızca bir görüntü görür. Kopyala-yapıştır çalışmaz. Arama çalışmaz.

OCR bu boşluğu doldurur: görüntüleri okur ve üzerine görünmez bir metin katmanı ekler, böylece PDF aynı görünür ama artık aranabilirdir.

OCR'nin sınırları

Modern OCR, temiz, basılı İngilizce metinde çok doğrudur (%98+ doğruluk). Doğruluk şu durumlarda düşer:

El yazısı (çok zorlayıcıdır)
Latin olmayan yazılar (dile göre değişir)
Düşük çözünürlüklü veya eğri taramalar
Alışılmadık fontlar veya yoğun biçimlendirme

Araçlar

OCR PDF taranmış PDF'lere aranabilir bir metin katmanı eklemek için Tesseract OCR'yi çalıştırır
PDF to Text zaten metin tabanlı olan PDF'lerden metin çıkarır

OCR neden PDF'ler için önemli

OCR'nin sınırları

Araçlar

İlgili araçlar