Hallo,
ich habe PDF24 Creator Version 11.29.1 installiert und alles funktioniert problemlos, bis ich jetzt OCR für chinesischen Text machen wollte. Es erfolgt die Fehlermeldung:
Could not open data file chi_sim_vert.traineddata. Try resetting!
Das Rücksetzen der OCR-Engine und das Löschen des Verzeichnisses "%LOCALAPPDATA%\PDF24\tesseract" hat an der Fehlermeldung nichts geändert.
Soll ich die Datei trainDataList.txt an forum@pdf24.org senden?
Vielen Dank für den Hinweis. Eine etwas kleinere Reparatur habe ich umgesetzt, indem ich die vier chinesischen Daten-Dateien (chi_sim.traineddata usw.) heruntergeladen habe. Damit ist die Texterkennung zum erfolgreichen Abschluss gekommen.
Es gibt jetzt allerdings ein weiteres Problem: Wenn ich die Texterkennung über die originale PDF-Datei laufen lasse und die Ergebnis-Datei öffne, enthält diese keinen Text mehr, nur einige Striche vom originalen Layout.
Ein Workaround funktioniert jedoch: Wenn ich die Seiten als JPG-Dateien speichere und anschließend die Texterkennung darüber laufen lasse. Die Ergebnis-Datei enthält das Bild der Seite und den erkannten Text.