Tesseract — PDF Glossary | PDF Genie

Tesseract, de-facto açık kaynaklı OCR motorudur. 1985 ile 1995 arasında Hewlett-Packard'da geliştirilmiş, 2005'te açık kaynaklı hale getirilmiş ve şimdi Google tarafından sürdürülmektedir; sayısız uygulamadaki OCR'yi güçlendirir — Evernote'un tarama özelliğinden akademik dijitalleştirme projelerine ve kendi OCR PDF aracımıza kadar.

Tesseract ne yapar

Bir metin görüntüsü verildiğinde — bir tarama, fotoğraf, ekran görüntüsü — Tesseract şunları üretir:

Tanınan metni bir dize olarak
Her karakter/sözcük/satır için sınırlayıcı kutular
Tanıma başına güven puanları
İsteğe bağlı olarak, bir "aranabilir PDF" bindirmesi — üzerinde görünmez bir metin katmanı olan orijinal görüntü

Diller

Tesseract, 100+ dil için eğitilmiş veri dosyalarıyla birlikte gelir. Doğruluk önemli ölçüde değişir:

Mükemmel — modern Latin yazılı basılı metin (İngilizce, çoğu Avrupa dili), Arapça, Çince (Basitleştirilmiş ve Geleneksel), Korece, Japonca
İyi — Kiril, İbranice, Tay, Vietnamca
Çalışılabilir — el yazısı İngilizce (sınırlı), tarihi yazılar
Zorlayıcı — bitişik el yazısı, ağır stilize fontlar, düşük çözünürlüklü taramalar

Tesseract'ın güçlü ve sınırlı yönleri

Güçlü olduğu yerler — 300 DPI veya daha yüksekte temiz, basılı, iyi aydınlatılmış taramalar. Standart ofis belgelerinde tutarlı biçimde %98+ karakter doğruluğu.

Sınırlar — el yazısı (yerine Google Vision API veya Azure Document Intelligence'ı düşünün), tablolar ve düzen yeniden oluşturma (ABBYY FineReader bunu çok daha iyi yapar) ve mobilde gerçek zamanlı OCR (Apple'ın Vision framework'ü ve Google ML Kit cihaz üzerinde daha hızlıdır).

Çoğu PDF tarama ihtiyacı için Tesseract doğru fiyatta (ücretsiz) doğru araçtır. OCR PDF aracımızı bu yüzden güçlendiriyor.

Tesseract ne yapar

Diller

Tesseract'ın güçlü ve sınırlı yönleri

İlgili araçlar