Hallo zusammen,
ich ich stoße auf einem Rechner mit Win10 auf ein merkwürdiges Phänomen.
PDF24 11.13.2 + frisch heruntergeladenen *.traineddata files
OCR Konvertierungen brechen immer nach einer Seite mit dem Fehler ab, dass die Language files nicht gefunden werden. Wenn ich jedich erneut auf "Start" klicke, mach PDF24 weiter und kommt die Fehlermeldung nach der 2. Seite, usw. Ich muss dann bei einem 10seitigen Scan halt 10x Klicken, bei einem 200-seitigen ....
Nach dem Durchklicken wird aber eine korrektes OCR-Datei erzeugt, sogar in der richtigen Sprache.
Terresact --lang-files zeigt die vorhandenen LANG files und direkt mit einen Einzelbild aufgerufen, erledigt es auch alles zur vollsten Zufriedenheit.
Es scheint fast so, als ob PDF24 nach jeweils einer Seite vergisst, welche Sprache angewendet werden soll.
Könnte sowas passieren? Ich nutze es hier auf einem Firmenrechner ohne Netz-Zugang mit eingeschränkten Rechten.
Vielen Dank,
Indigo3k
(hoffentlich jetzt mit allen slashes)
================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================
Habe grade entdeckt, dass es die osd.traineddata im github repository gibt, und sie heruntergeladen. (für was auch immer "osd" steht)
Damit läuft das OCR durch!
Das bedeutet somit, dass im tessdata-Verz. neben den Sprachdateien auch diese osd liegen muss. Die Info fehlte mir.
Sorry, für den Wirbel.
Bitte mal die Ausgaben zusenden. Dazu in der UI F12 drücken, um die Console zu öffnen. Dann OCR laufen lassen. Am Ende die Ausgaben der Console kopieren und zu mir an forum@pdf24.org senden.
(kann aus irgendwelchen Gründen keine Antwort eingeben, daher als Kommentar)
================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
Aus meiner Sicht sind alle Parameter für tesseract i.O..
Die Dateien deu., eng. und fra.traineddata liegen im tessdata. frage mich, woher plötzlich die "osd".traineddata kommen soll und warum ein forward-slash in dem TESS> Error steht.
trainDataList.txt paralles zu tesseract.exe enthält 3 Zeilen:
deu German
eng English
fra French
Danke für die Hilfe!
Die osd.traineddata Datei muss in jedem Fall immer vorhanden sein, egal welche Sprache verwendet wird. OSD = Orientation and script detection. Diese einfach runterladen und in das Verzeichnis mit den Sprachdateien packen.
(kann irgendwie keine Antwort in dem Thread eingeben, daher als Kommentar)
================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================
Aus meiner Sicht sind alle Parameter fpr tesseract i.O.
In der ...tessdata liegen die deu., eng. und fra.traineddata. Parallel zu tesseract liegt die trainDataList.txt mit 3 Zeilen:
deu German
eng English
fra French
Ich verstehe nur nicht, woher plötzlich diese "osd".traineddata kommen soll (trotz -l deu) und warum vor osd.traineddata ein forward-slash steht.
Vielen Dank für die Hilfe!