tessdata Download für OCR - Ablage für AllUser anstatt im Benutzerprofil

Startseite Foren PDF24 Creator Allgemeines tessdata Download für OCR - Ablage für AllUser anstatt im Benutzerprofil

Ansicht von 5 Beiträgen - 1 bis 5 (von insgesamt 5)
  • Autor
    Beiträge
  • #16832
    richardb
    Teilnehmer

    Hallo,

    ich nutze die PDF24-Tools unter W2K19 auf einem Windows-Terminalserver.

    Wird die OCR-Funktion von einem Anwender das erste mal verwendet, so versucht das Tool eine Sprachübersichtsdatei von pdf24.org herunterzuladen, als auch die Trainingsdaten von github.

    Die Dateien werden im Windows-Benutzerprofil des jeweiligen Anwenders gespeichert.

    - lässt sich der Download vermeiden indem die Dateien im eigenen Netzwerk bereitgehalten werden

    - ist eine zentrale Ablage (einmal pro Maschine wäre auch ok) machbar anstatt die Speicherung in jedem Benutzerprofil?

     

    Danke.

     

    #16833
    Stefan Ziegler
    Administrator

    Die Sprachdateien kann man auch lokal installieren. Es gibt sehr viele davon und daher laden wir diese standardmäßig nach Bedarf. Sie können diese aber auch lokal installieren und auch nur diese speichern, die sie auch wirklich benötigen. Wie das geht, steh hier: https://creator.pdf24.org/manual/11/#102-local-installation-of-all-language-file

    #16834
    richardb
    Teilnehmer

    Danke für die schnelle Rückmeldung.

    Bei den Trainingsdaten gibt es auf der Projekt-Seite bei Github 3 Versionen:

    https://github.com/tesseract-ocr/tessdata_fast

    https://github.com/tesseract-ocr/tessdata

    https://github.com/tesseract-ocr/tessdata_best

    Alle 3 Versionen seien laut Angabe für V4 von Tesseract geeignet. Welche sollte man nehmen? Was spricht für die eine, was für die andere?

     

    Danke.

     

    #16838
    Stefan Ziegler
    Administrator

    fast = schnellere aber etwas schlechtere Erkennungsrate.
    best = langsamere Texterkennung, aber beste verfügbare Erkennungsrate.

    #16845
    richardb
    Teilnehmer

    ok, aber grundsätzlich alle für tesseract in pdf24 nutzbar?

     

    mir ist aufgefallen dass die Dateien in https://github.com/tesseract-ocr/tessdata  erheblich größer sind als im Order für fast und best. Hat das was zu bedeuten?

Ansicht von 5 Beiträgen - 1 bis 5 (von insgesamt 5)
  • Du musst angemeldet sein, um auf dieses Thema antworten zu können.