0

Hallo zusammen,

ich ich stoße auf einem Rechner mit Win10 auf ein merkwürdiges Phänomen.

PDF24 11.13.2 + frisch heruntergeladenen *.traineddata files

OCR Konvertierungen brechen immer nach einer Seite mit dem Fehler ab, dass die Language files nicht gefunden werden. Wenn ich jedich erneut auf "Start" klicke, mach PDF24 weiter und kommt die Fehlermeldung nach der 2. Seite, usw. Ich muss dann bei einem 10seitigen Scan halt 10x Klicken, bei einem 200-seitigen ....
Nach dem Durchklicken wird aber eine korrektes OCR-Datei erzeugt, sogar in der richtigen Sprache.

Terresact --lang-files zeigt die vorhandenen LANG files und direkt mit einen Einzelbild aufgerufen, erledigt es auch alles zur vollsten Zufriedenheit.

Es scheint fast so, als ob PDF24 nach jeweils einer Seite vergisst, welche Sprache angewendet werden soll.

Könnte sowas passieren? Ich nutze es hier auf einem Firmenrechner ohne Netz-Zugang mit eingeschränkten Rechten.

Vielen Dank,
Indigo3k

indigo3k Posted new comment 2023-08-08

(kann irgendwie keine Antwort in dem Thread eingeben, daher als Kommentar)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================

Aus meiner Sicht sind alle Parameter fpr tesseract i.O.

In der ...tessdata liegen die deu., eng. und fra.traineddata. Parallel zu tesseract liegt die trainDataList.txt mit 3 Zeilen:
deu German
eng English
fra French

Ich verstehe nur nicht, woher plötzlich diese "osd".traineddata kommen soll (trotz -l deu) und warum vor osd.traineddata ein forward-slash steht.

Vielen Dank für die Hilfe!

(hoffentlich jetzt mit allen slashes)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================

Habe grade entdeckt, dass es die osd.traineddata im github repository gibt, und sie heruntergeladen. (für was auch immer "osd" steht)

Damit läuft das OCR durch!

Das bedeutet somit, dass im tessdata-Verz. neben den Sprachdateien auch diese osd liegen muss. Die Info fehlte mir.

Sorry, für den Wirbel.