Wir haben immer wieder PDFs, deren Qualität in Ordnung ist, bei denen aber nur manche Begriffe im PDF gefunden werden, andere nicht. Auch das PDF ein weiteres mal durch die OCR-Erkennung zu schicken hat nichts daran geändert. Bspl. wir suchen Güterbuch -> komplett wird der Begriff nicht gefunden. Gebe ich Güter ein, wird ebenfalls nichts gefunden, gebe ich buch ein gibt es einen Treffer.
Das nächste Problem ist, dass nur ein Teil der gesuchten Begriffe gefunden werden. Wenn bsplsweise im Text "Archiv" 5 mal vorkommt, zeigt die Suche nur 3 Treffer an.
Das Problem ist nun, man weiß nicht, ob das Programm alles findet und zuverlässig ist oder nicht.
Woran liegt das?
Wie kann man (automatisiert?) feststellen, ob in einem PDF alles gefunden wird?
Herzlichen Dank für Ihre Mühe!
Hallo, das kann unterschiedliche Ursachen haben. Eventuell ist die Eingabedatei schwer zu verarbeiten, sodass die Ergebnisse nicht so gut sind wie erhofft. Eventuell versuchen Sie die Optionen zur Optimierung zu verwenden, um eventuell Artefakte zu entfernen. Dies führt teilweise zu besseren Ergebnissen. Teilweise ist die Auflösung der Bilder in der PDF auch zu gering, sodass der OCR Vorgang es schwer hat, alles zu erkennen. Ein Automatisches feststellen ist eher schwer, denn dazu müsste man wissen, was drin stehen soll. Eventuell fällt fallen Ihnen ja hierzu Ansätze ein, um das Tool zu verbessern, sodass Ihre Arbeit eventuell einfacher wird.