Hallo bei PDF24,
Folgende Situation:
Die Software läuft auf einem Server ohne Internet-Anschluss.
Das Programm "pdf-ocr.exe" verwendet normalerweise das Verzeichnis LocalAppData-PDF24 für die tesseract Supportdaten.
Wenn man aber die Daten im Programm-Ordner unter tesseract-tessdata ablegt, werden diese verwendet und LocalAppData-PDF24 wird nicht mehr verwendet.
Das funktionierte bis Version 11.18 sehr gut.
Seit der Version 11.20 wird immer versucht die Daten runter zu laden, obwohl sie im o.g. Programm-Verzeichnis korrekt vorhanden sind.
Beim Offline Rechner schlägt das mit dem Fehler "Download failed" natürlich fehl.
Kann man das beim nächste Patch wieder einbauen?!
Vielen Dank im Voraus.
Meine Beobachtung paßt nicht ganz dazu, weil ich PDF24 lokal installiert habe. Aber jedesmal, wenn das OCR-Modul startet, will es die Sprachdateien neu herunterladen. Das kann ich nur durch eine Sperre in meiner Firewall unterbinden. Das ist aber schon lange so, nicht erst seit 11.20.
Ich habe die Sache in der aktuellen Version 11.20.1 überprüft. Ich konnte keine Probleme mit den lokal Installierten Sprachdateien feststellen.
- trainDataList.txt in INSTALL_DIR/tesseract speichern. Dateiinhalt anpassen wenn nur bestimmte Sprachen auswählbar sein sollen.
- OCR Sprachdateien runterladen und im Ordner INSTALL_DIR/tesseract/tessdata speichern.
Wenn PDF24 OCR jetzt startet, dann wird bei Models LOCAL angezeigt.
Sorry, es muss pdf24-Ocr.exe -applyProfile "default/low" -jobs 2 -skipPagesWithText -deskew -language deu -dpi 300 -outputFile "MyFile.pdf" "MyFile.tif" heissen.
Und wenn sie über die UI den OCR Vorgang ausführen, sehen zeigt die LOCAL bei Modelle an und wird dann nicht versucht runterzuladen oder ist es egal, ob Sie über die UI oder Kommandoteile gehen?
Ich habe weitere Untersuchungen angestellt. Es betrifft nur die Kommandozeile. Die Ursache ist nun bekannt und ich werde das Problem beheben. Die kommende Version bringt einen Fix.
Vielen Dank für die schnelle Reaktion. Die Antwort auf die vorige Frage haben Sie ja schon geschrieben. Ich habe auch festgestellt, dass das nur bei der Console auftritt.
Eigentlich sollte das weiterhin so funktionieren wie in den älteren Versionen. Ich prüfe das vorsorglich noch einmal.
https://creator.pdf24.org/manual/11/#102-local-installation-of-all-language-file
Befindet sich die trainDataList.txt in INSTALL_DIR/tesseract?
Gibt es auch die osd.traineddata in INSTALL_DIR/tesseract/tessdata?
>>Befindet sich die trainDataList.txt in INSTALL_DIR/tesseract?
Gibt es auch die osd.traineddata in INSTALL_DIR/tesseract/tessdata?< "INSTALL_DIRtesseracttrainDataList.txt"
"%LOCALAPPDATA%PDF24tesseract5.4.1tessdatadeu.traineddata" --> "INSTALL_DIRtesseracttessdatadeu.traineddata"
"%LOCALAPPDATA%PDF24tesseract5.4.1tessdataeng.traineddata" --> "INSTALL_DIRtesseracttessdataeng.traineddata"
"%LOCALAPPDATA%PDF24tesseract5.4.1tessdataosd.traineddata" --> "INSTALL_DIRtesseracttessdataosd.traineddata"
Alle anderen Dateien waren schon vorhanden in "INSTALL_DIRtesseract".
Das habe ich bei den vorigen Versionen auch so gemacht und es hat funktioniert.
Das habe ich keinen Fehler gemacht.
Und wenn man dann in der Console pdf24-Ocr.exe -applyProfile "default/low" -jobs 2 -skipPagesWithText -deskew -language deu -dpi 300 -outputFile "MyFile.tif" "MyFile.pdf" eingibt, kommt wieder das Download, obwohl die vier OCR-Support Dateien alle korrekt im INSTDIR liegen.