PDF GeniePDF Genie

Tesseract

En yaygın kullanılan açık kaynaklı OCR (optik karakter tanıma) motoru — başlangıçta HP'de geliştirildi, şimdi Google tarafından sürdürülüyor.

Tesseract, de-facto açık kaynaklı OCR motorudur. 1985 ile 1995 arasında Hewlett-Packard'da geliştirilmiş, 2005'te açık kaynaklı hale getirilmiş ve şimdi Google tarafından sürdürülmektedir; sayısız uygulamadaki OCR'yi güçlendirir — Evernote'un tarama özelliğinden akademik dijitalleştirme projelerine ve kendi OCR PDF aracımıza kadar.

Tesseract ne yapar

Bir metin görüntüsü verildiğinde — bir tarama, fotoğraf, ekran görüntüsü — Tesseract şunları üretir:

  • Tanınan metni bir dize olarak
  • Her karakter/sözcük/satır için sınırlayıcı kutular
  • Tanıma başına güven puanları
  • İsteğe bağlı olarak, bir "aranabilir PDF" bindirmesi — üzerinde görünmez bir metin katmanı olan orijinal görüntü

Diller

Tesseract, 100+ dil için eğitilmiş veri dosyalarıyla birlikte gelir. Doğruluk önemli ölçüde değişir:

  • Mükemmel — modern Latin yazılı basılı metin (İngilizce, çoğu Avrupa dili), Arapça, Çince (Basitleştirilmiş ve Geleneksel), Korece, Japonca
  • İyi — Kiril, İbranice, Tay, Vietnamca
  • Çalışılabilir — el yazısı İngilizce (sınırlı), tarihi yazılar
  • Zorlayıcı — bitişik el yazısı, ağır stilize fontlar, düşük çözünürlüklü taramalar

Tesseract'ın güçlü ve sınırlı yönleri

Güçlü olduğu yerler — 300 DPI veya daha yüksekte temiz, basılı, iyi aydınlatılmış taramalar. Standart ofis belgelerinde tutarlı biçimde %98+ karakter doğruluğu.

Sınırlar — el yazısı (yerine Google Vision API veya Azure Document Intelligence'ı düşünün), tablolar ve düzen yeniden oluşturma (ABBYY FineReader bunu çok daha iyi yapar) ve mobilde gerçek zamanlı OCR (Apple'ın Vision framework'ü ve Google ML Kit cihaz üzerinde daha hızlıdır).

Çoğu PDF tarama ihtiyacı için Tesseract doğru fiyatta (ücretsiz) doğru araçtır. OCR PDF aracımızı bu yüzden güçlendiriyor.

İlgili araçlar