OCR (Optik Karakter Tanıma)
Görüntülerden veya taranmış PDF'lerden metni okuyan ve bunları yeniden aranabilir, seçilebilir karakterlere dönüştüren teknoloji.
OCR, Optik Karakter Tanıma (Optical Character Recognition) anlamına gelir — bir görüntüye (sayfanın fotoğrafı, taranmış belge, ekran görüntüsü) bakıp içindeki harfleri ve sözcükleri tanıma sürecidir. OCR'dan sonra daha önce yalnızca piksel olan metni arayabilir, kopyalayabilir ve düzenleyebilirsiniz.
OCR neden PDF'ler için önemli
PDF'ler iki biçimde gelir:
- Metin tabanlı PDF'ler. Doğrudan Word, LaTeX veya web dışa aktarmasından oluşturulmuştur. Metin dosyada gerçek karakterler olarak yaşar — kopyalayabilir, arayabilir ve araçlar doğrudan işleyebilir.
- Taranmış / görüntü tabanlı PDF'ler. Bir tarayıcıdan veya fotoğraftan oluşturulmuştur. Her sayfa esas olarak bir resimdir. Sayfadaki metni görebilirsiniz, ancak bilgisayarlar yalnızca bir görüntü görür. Kopyala-yapıştır çalışmaz. Arama çalışmaz.
OCR bu boşluğu doldurur: görüntüleri okur ve üzerine görünmez bir metin katmanı ekler, böylece PDF aynı görünür ama artık aranabilirdir.
OCR'nin sınırları
Modern OCR, temiz, basılı İngilizce metinde çok doğrudur (%98+ doğruluk). Doğruluk şu durumlarda düşer:
- El yazısı (çok zorlayıcıdır)
- Latin olmayan yazılar (dile göre değişir)
- Düşük çözünürlüklü veya eğri taramalar
- Alışılmadık fontlar veya yoğun biçimlendirme
Araçlar
- OCR PDF taranmış PDF'lere aranabilir bir metin katmanı eklemek için Tesseract OCR'yi çalıştırır
- PDF to Text zaten metin tabanlı olan PDF'lerden metin çıkarır