Hallo Zusammen,
im Changelog wird eine Funktion erwähnt, um das Nachladen von Sprachen für OCR zu verhindern. Wir würden gerne die OCR Funktion unseren Mitarbeitern anbieten, allerdings ist ein Nachladen der Sprachen nicht möglich. Wie kann man diese Funktion konfigurieren?
Vielen Dank im Voraus
Michael
Leider kann ich meinen Beitrag nicht editieren, daher hier die Liste der fehlenden Einträge in der trainDataList.txt:
chi_sim_vert Chinese - Simplified (vertical)
chi_tra_vert Chinese - Traditional (vertical)
cos Corsican
div Dhivehi; Divehi; Maldivian
enm Middle English (1100-1500)
fao Faroese
fry Western Frisian
gla Scottish Gaelic; Gaelic
hye Armenian
jpn_vert Japanese (vertical)
kmr Northern Kurdish
Mir weiterhin unbekannt sind equ, fil und osd.
Hallo,
wäre es möglich, die referenzierten Dateien mal zu aktualisieren? Folgende traineddata-Dateien werden angeboten, aber von euren Listen nicht referenziert. Ich bin unsicher, worum es sich genau handelt:
- chi_sim_vert
- chi_tra_vert
- cos
- div
- enm
- equ
- fao
- fil
- fry
- gla
- hye
- jpn_vert
- kmr
- osd
Hallo,
packen Sie eine trainDataList.txt Datei für den lokalen Modus in den tesseract Ordner im Installationsverzeichnis. Im Vergleich zur online Liste enthält die lokale Liste keine URLs zum Download. Laden Sie sich dann die einzelnen Sprachdateien, die in der Liste angegeben sind, in den tessdata Order (INSTALL_DIR/tesseract/tessdata). Das war es dann schon. Achten Sie bitte drauf, dass Sie die Sprachdateien verwenden, die mit Tesseract 4.0 kompatibel sind. Die Sprachdateien kann man z.b. von GitHub aus dem tesseract Projekt herunterladen.
Die Liste für die lokale Variante kann man über die unten aufgeführte URL herunterladen. Diese Datei dann in den entsprechenden Order wie oben beschrieben kopieren. Beachten Sie bitte den Dateinamen von local-list.txt in trainDataList.txt umzubennen. Die Liste mit den downloadbaren Sprachdateien ist ebenfalls unten aufgeführt. Dort sind die direkten Links zu den Sprachdateien enthalten.
Die Liste können Sie kürzen. Sie können in der Liste nur die Sprachdateien angeben, die in der Software angezeigt werden sollen.
Liste für die lokalen Sprachdateien:
https://creator.pdf24.org/tesseract/4.0/traindata/local-list.txt
Liste für die downloadbaren Sprachdateien:
https://creator.pdf24.org/tesseract/4.0/traindata/list.txt
Die Lösung funktioniert einwandfrei. Vielen Dank für das tolle Feature und die schnelle Antwort auf meine Frage. 🙂
Es hat sich scheinbar ein kleiner Fehler in die local-list.txt eingeschlichen. Die Kürzel für "Chinese-Simpl." und "Chinese-Trad." müssen statt "chi-sim" und "chi-tra" "chi_sim" und "chi_tra" heißen.
equ scheint für Formeln zu sein. osd ist zur Bestimmung der Ausrichtung.