OCR-Abbruch nach einer Seite

Question

3.59K views2023-08-08PDF24 Online Tools

0

indigo3k 12 2023-08-07 3 Comments

Hallo zusammen,

ich ich stoße auf einem Rechner mit Win10 auf ein merkwürdiges Phänomen.

PDF24 11.13.2 + frisch heruntergeladenen *.traineddata files

OCR Konvertierungen brechen immer nach einer Seite mit dem Fehler ab, dass die Language files nicht gefunden werden. Wenn ich jedich erneut auf "Start" klicke, mach PDF24 weiter und kommt die Fehlermeldung nach der 2. Seite, usw. Ich muss dann bei einem 10seitigen Scan halt 10x Klicken, bei einem 200-seitigen ....
Nach dem Durchklicken wird aber eine korrektes OCR-Datei erzeugt, sogar in der richtigen Sprache.

Terresact --lang-files zeigt die vorhandenen LANG files und direkt mit einen Einzelbild aufgerufen, erledigt es auch alles zur vollsten Zufriedenheit.

Es scheint fast so, als ob PDF24 nach jeweils einer Seite vergisst, welche Sprache angewendet werden soll.

Könnte sowas passieren? Ich nutze es hier auf einem Firmenrechner ohne Netz-Zugang mit eingeschränkten Rechten.

Vielen Dank,
Indigo3k

indigo3k Posted new comment 2023-08-08

indigo3k commented 2023-08-08

(kann irgendwie keine Antwort in dem Thread eingeben, daher als Kommentar)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================

Aus meiner Sicht sind alle Parameter fpr tesseract i.O.

In der ...tessdata liegen die deu., eng. und fra.traineddata. Parallel zu tesseract liegt die trainDataList.txt mit 3 Zeilen:
deu German
eng English
fra French

Ich verstehe nur nicht, woher plötzlich diese "osd".traineddata kommen soll (trotz -l deu) und warum vor osd.traineddata ein forward-slash steht.

Vielen Dank für die Hilfe!

indigo3k commented 2023-08-08

(hoffentlich jetzt mit allen slashes)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================

indigo3k commented 2023-08-08

Habe grade entdeckt, dass es die osd.traineddata im github repository gibt, und sie heruntergeladen. (für was auch immer "osd" steht)

Damit läuft das OCR durch!

Das bedeutet somit, dass im tessdata-Verz. neben den Sprachdateien auch diese osd liegen muss. Die Info fehlte mir.

Sorry, für den Wirbel.

1 Answer

(kann irgendwie keine Antwort in dem Thread eingeben, daher als Kommentar)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================

Aus meiner Sicht sind alle Parameter fpr tesseract i.O.

In der ...tessdata liegen die deu., eng. und fra.traineddata. Parallel zu tesseract liegt die trainDataList.txt mit 3 Zeilen:
deu German
eng English
fra French

Ich verstehe nur nicht, woher plötzlich diese "osd".traineddata kommen soll (trotz -l deu) und warum vor osd.traineddata ein forward-slash steht.

Vielen Dank für die Hilfe!
(hoffentlich jetzt mit allen slashes)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load
================
Habe grade entdeckt, dass es die osd.traineddata im github repository gibt, und sie heruntergeladen. (für was auch immer "osd" steht)

Damit läuft das OCR durch!

Das bedeutet somit, dass im tessdata-Verz. neben den Sprachdateien auch diese osd liegen muss. Die Info fehlte mir.

Sorry, für den Wirbel.

score 0 · Answer 1 · 2023-08-08T11:24:25+00:00

0

Stefan Ziegler 1.85K Posted 2023-08-07 2 Comments

Bitte mal die Ausgaben zusenden. Dazu in der UI F12 drücken, um die Console zu öffnen. Dann OCR laufen lassen. Am Ende die Ausgaben der Console kopieren und zu mir an forum@pdf24.org senden.

Stefan Ziegler Posted new comment 2024-06-17

indigo3k commented 2023-08-08

(kann aus irgendwelchen Gründen keine Antwort eingeben, daher als Kommentar)

================
"C:Program FilesPDF24gsbingswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY "-sFONTPATH=C:WindowsFonts;C:WindowsFonts" -dNEWPDF=true -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -r300 -dFirstPage=1 -dLastPage=1 -sDEVICE=png16m -dDownScaleFactor=1 "-sOutputFile=C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24unlocked_1_96192125_4105569692.pdf"
----------------
GPL Ghostscript 10.01.2 (2023-06-21)
Copyright (C) 2023 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1
================
================
"C:Program FilesPDF24tesseracttesseract.exe" "--tessdata-dir" "C:Program FilesPDF24tesseracttessdata" "C:UserskottoAppDataLocalTempPDF24ocr_2_96206515_1861516665.png" "C:UserskottoAppDataLocalTempPDF24ocr_3_96207546_3587696863" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "--psm" "1" "pdf" "txt"
----------------
TESS> Error opening data file C:Program FilesPDF24tesseracttessdata/osd.traineddata
TESS> Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
TESS> Failed loading language 'osd'
TESS> Tesseract couldn't load any languages!
TESS> Warning: Auto orientation and script detection requested, but osd language failed to load

Aus meiner Sicht sind alle Parameter für tesseract i.O..
Die Dateien deu., eng. und fra.traineddata liegen im tessdata. frage mich, woher plötzlich die "osd".traineddata kommen soll und warum ein forward-slash in dem TESS> Error steht.

trainDataList.txt paralles zu tesseract.exe enthält 3 Zeilen:
deu German
eng English
fra French

Danke für die Hilfe!

Stefan Ziegler commented 2024-06-17

Die osd.traineddata Datei muss in jedem Fall immer vorhanden sein, egal welche Sprache verwendet wird. OSD = Orientation and script detection. Diese einfach runterladen und in das Verzeichnis mit den Sprachdateien packen.