0
0 Comments

Wir haben immer wieder PDFs, deren Qualität in Ordnung ist, bei denen aber nur manche Begriffe im PDF gefunden werden, andere nicht. Auch das PDF ein weiteres mal durch die OCR-Erkennung zu schicken hat nichts daran geändert. Bspl. wir suchen Güterbuch -> komplett wird der Begriff nicht gefunden. Gebe ich Güter ein, wird ebenfalls nichts gefunden, gebe ich buch ein gibt es einen Treffer.
Das nächste Problem ist, dass nur ein Teil der gesuchten Begriffe gefunden werden. Wenn bsplsweise im Text "Archiv" 5 mal vorkommt, zeigt die Suche nur 3 Treffer an.
Das Problem ist nun, man weiß nicht, ob das Programm alles findet und zuverlässig ist oder nicht.
Woran liegt das?
Wie kann man (automatisiert?) feststellen, ob in einem PDF alles gefunden wird?
Herzlichen Dank für Ihre Mühe!

Stefan Ziegler Answered question 2018-08-06