Text erkennen OCR erkennt nichts

Dieses Thema hat 7 Antworten und 3 Teilnehmer, und wurde zuletzt aktualisiert vor 1 Jahr, 7 Monaten von myphi.

Ansicht von 8 Beiträgen - 1 bis 8 (von insgesamt 8)

Autor

Beiträge
2020-04-29 um 18:21 Uhr #15364

bubblefish
Teilnehmer

Hi,

ich habe 9.1 installiert, hatte keine Auffälligkeiten - aber leider auch nach Aufruf der OCR stets 0 Wörter erkannt.

Auswahl der Sprache brachte keine Effekte.

Hm, ... dubios.

Grüße, Bubblefish

2020-05-13 um 17:48 Uhr #15384

Stefan Ziegler
Administrator

Eventuell mal die Console per F12 öffnen und dann die Erkennung starten. Eventuell kann man dort etwas erkennen, was uns weiterbringt.

2020-05-13 um 18:03 Uhr #15388

myphi
Teilnehmer

Wir hatten darüber am 6.5. schon per E-Mail kommuniziert (ich von einer anderen E-Mail-Adresse aus, über die ich mich nicht registrieren konnte) und ich hatte die Log-Datei per E-Mail geschickt. Darin waren nach Ihrer Aussage keine Auffälligkeiten.

Das hatte ich dann noch per E-Mail (am 06.05., 21:49 Uhr) geantwortet:

Ich habe zig verschiedene PDF-Dateien aus unterschiedlichen Quellen versucht, immer mit dem gleichen Ergebnis. Immer 0 Wörter.

Hier noch mal als Beispiel einige Testdateien.

Im Anhang eine gescannte Originaldatei (PDF-Test-OCR-Pdf24.pdf), die von PDF24-Creator erstellte Datei mit 0 erkannten Wörtern (PDF-Test-OCR-Pdf24_ocr.pdf) und die online erstellte Version (PDF-Test-OCR-Pdf24_ocr_online.pdf) sowie ein entsprechender Screenshot.

Inzwischen haben ich PDF24-Creator noch auf einem zweiten Rechner installiert (beides Windows 10 Professional), auf dem OCR einwandfrei funktioniert. Auch dazu habe ich die erstellte Test-Datei angefügt (PDF-Test-OCR-Pdf24_ocr_Rechner2.pdf).

Was auffällt: Bei Rechner 1 (PDF-Test-OCR-Pdf24_ocr.pdf) ist in den Dokumenteigenschaften die Anwendung "PDF24 Creator" und das PDF wurde erstellt mit "GPL Ghostscript 9.27". Bei Rechner 2 (PDF-Test-OCR-Pdf24_ocr_Rechner2.pdf) werden die Werte der Original-PDF-Datei (PDF-Test-OCR-Pdf24.pdf) nicht überschrieben. Dort steht bei Anwendung weiterhin "KM_C458" und bei PDF erstellt mit "KONICA MINOLTA bizhub C458".

Auf dem ersten Rechner geht jedoch wie vor nichts. Auch mehrfaches Deinstallieren und Neuinstallieren hat nichts geholfen.

Auf Rechner 1 besteht das Problem leider nach wie vor.

2020-05-14 um 7:25 Uhr #15394

Stefan Ziegler
Administrator

Die Testdateien, die per Mail reingekommen sind, haben wir untersucht, aber auf unseren Testsystemen können wir keine Probleme feststellen. Daher ist es für uns un nicht so leicht, das eigentliche Problem zu finden. Wenn wir das Problem nicht nachstellen können, dann macht es uns die Sache schwer. Wir benötigen zur Fehlerbeseitigung reproduzierbare Probleme, aber leider ist dies hier noch nicht gelungen. Die Frage ist nun einfach, was es noch sein kann. Eventuell mal die Konsole öffnen (F12) und dann die Erkennung starten und schauen, was da ausgegeben wird. Eventuell kann man dort etwas sehen...

2020-05-14 um 9:46 Uhr #15402

myphi
Teilnehmer

Wie bereits oben geschrieben: Die Konsolendaten (F12) hatte ich Ihnen bereits zuvor am 6.5. um 17:45 Uhr auch geschickt und Sie hatten dort keine Auffälligkeiten gefunden. Es gab dort Probleme mit einem UTF16BE-String in der PDF-Datei, aber Sie meinten, das düfte nicht zu diesem Problem bei der Texterkennung führen.

Leider ist das Programm für mich nicht nutzbar.

Trotzdem vielen lieben Dank für die Mühe, das halte ich bei einem kostenlosen Programm keineswegs für selbstverständlich!

Ich muss mich allerdings wohl jetzt leider nach einer Alternative umschauen.

2020-05-14 um 10:08 Uhr #15404

myphi
Teilnehmer

Ich habe noch einmal eine aktuelle Logdatei per E-Mail geschickt. Vielleicht lässt sich dort ja diesmal mehr erkennen.

2022-09-09 um 7:21 Uhr #15371

myphi
Teilnehmer

Ich habe exakt das gleiche Problem.

Egal, welche PDF-Datei ich durch die Texterkennung jage, es werden immer exakt 0 Wörter gefunden. Online funktioniert es hingegen einwandfrei.

Auch hier gab es die gleiche Frage schon mal, leider ohne Lösung:

https://help.pdf24.org/de/fragen/frage/ocr-erkennt-keine-woerter/

2022-09-09 um 7:23 Uhr #15405

myphi
Teilnehmer

Ich habe es für mich lösen können. Es lag an Tesseract, das für die Texterkennung sorgt. Offensichtlich funktionierte die mitgelieferte Version 4.1.1 nicht.

Ich habe auf

https://github.com/UB-Mannheim/tesseract/wiki

den Windows-Installer für die 32-bit-Version von Version 5.0.0 alpha heruntergeladen und installiert:

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-v5.0.0-alpha.20200328.exe

Dann habe ich den Installationsordner in C:\Program Files (x86)\PDF24 kopiert, den Originalordner "tesseract" umbenannt und dann den kopierten Installationsordner in "tesseract" umbenannt, so dass die Datei tesseract.exe weiterhin in C:\Program Files (x86)\PDF24\tesseract liegt.

Dann erneut die OCR-Funktion getestet und sofort funktionierte es!
Autor

Beiträge

Ansicht von 8 Beiträgen - 1 bis 8 (von insgesamt 8)

Du musst angemeldet sein, um auf dieses Thema antworten zu können.