Seit Update funktioniert die Texterkennung nicht mehr.

Startseite Foren PDF24 Creator Allgemeines Seit Update funktioniert die Texterkennung nicht mehr.

Schlagwörter: 

  • Dieses Thema hat 8 Antworten und 5 Teilnehmer, und wurde zuletzt aktualisiert vor 1 Monat von ba0645.
Ansicht von 9 Beiträgen - 1 bis 9 (von insgesamt 9)
  • Autor
    Beiträge
  • #15837
    flummimama
    Teilnehmer

    Seit dem Update auf 10.0 funktioniert die Texterkennung nicht mehr.
    Auch nach der Deinstallation und neu Installation der alten Version wird kein einziges Wort mehr erkannt.

    #15839
    sturmi63
    Teilnehmer

    Bei mir wird ebenfalls kein einziges Wort mehr erkannt.

    Kenne mich mit diesem Forum nicht aus.

    Keine Ahnung ob es korrekt ist wenn ich mich hier anschließe.

    #15853
    Stefan Ziegler
    Verwalter

    Welche Version nutzen Sie genau? Eventuell auch mal F12 drücken, um die Console in der OCR App zu öffnen und dann den Vorgang starten, damit man die Ausgaben vom OCR Prozess angezeigt bekommt. Hier kann man dann eventuell etwas mehr erkennen.

    #15868
    sturmi63
    Teilnehmer

    AKtuelle Version 10.0.7

    Keine Updates verfügbar nach Prüfung.

    Ausgabe der F12 Console bei dem OCR Prozess:

    GPL Ghostscript 9.53.3 (2020-10-01)

    Copyright (C) 2020 Artifex Software, Inc.  All rights reserved.

    This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:

    see the file COPYING for details.

    Processing pages 1 through 1.

    Page 1

    ================

    "C:\Program Files\PDF24\tesseract\tesseract.exe" "--tessdata-dir" "C:\Users\sturm\AppData\Local\PDF24\tesseract\4.1.1\tessdata" "C:\Users\sturm\AppData\Local\Temp\PDF24\ocr_2668330218_2226355356_2.png" "C:\Users\sturm\AppData\Local\Temp\PDF24\ocr_2668330890_2885127900_3" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "150" "--oem" "3" "pdf" "txt"

    ----------------

    TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica

     

    #15869
    Stefan Ziegler
    Verwalter

    Kommt in der Konsole noch mehr? Die tesseract.exe wird aufgerufen aber man sieht hier nicht, dass dieser Aufruf auch beendet wird.

    #15881
    flummimama
    Teilnehmer

    Ich habe die Version 9.2 verwendet, da hat noch alles funktioniert.
    Nach dem Update auf 10.0 funktioniert es nicht mehr.

    Auch nach Neuinstallation der alten Version:

    "C:\Program Files (x86)\PDF24\tesseract\tesseract.exe" "--tessdata-dir" "C:\Users\tinas\AppData\Local\PDF24\tesseract\4.1.1\tessdata" "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605863093_3878574171_2.png" "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605865828_1315230980_3" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "pdf" "txt"
    ----------------
    TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica
    ================
    "C:\Program Files (x86)\PDF24\gs\bin\gswin32c.exe" -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress "-sOutputFile=C:\Users\tinas\AppData\Local\Temp\PDF24\605869062_4032048259_0.pdf" -dCompatibilityLevel=1.7 -dAutoRotatePages=/PageByPage -dEmbedAllFonts=true -dSubsetFonts=true -dProcessColorModel=/DeviceRGB -dColorConversionStrategy=/LeaveColorUnchanged -dPreserveAnnots=true -dAutoFilterColorImages=true -dAutoFilterGrayImages=true -dAutoFilterMonoImages=true -r150 -dColorImageResolution=150 -dGrayImageResolution=150 -dMonoImageResolution=150 -dDownsampleColorImages=true -dColorImageDownsampleType=/Bicubic -dColorImageDownsampleThreshold=1.0 -dDownsampleGrayImages=true -dGrayImageDownsampleType=/Bicubic -dGrayImageDownsampleThreshold=1.0 -dDownsampleMonoImages=true -dMonoImageDownsampleType=/Subsample -dMonoImageDownsampleThreshold=1.0 -dPassThroughJPEGImages=false -c " <</ColorImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</ColorACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams" -f "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605869062_4166621583_4.pdf" -c "[ /Creator (PDF24 Creator) /DOCINFO pdfmark"
    ----------------
    GPL Ghostscript 9.27 (2019-04-04)
    Copyright (C) 2018 Artifex Software, Inc.  All rights reserved.
    This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
    see the file COPYING for details.
    Processing pages 1 through 1.
    Page 1

    #15884
    mmchen49
    Teilnehmer

    Updates? Welche Updates? Ich habe immer noch die Version 9.2.2 und wenn ich nach Updates suche heißt es "Es wurde kein Update gefunden".

    Und starte ich die Texterkennung für eine Datei (3,8 mb), funktioniert die seit Neuestem nicht mehr, sondern "Tesseract ..." stürzt nach dem Start ab, startet selber wieder und stürzt ab. Das wiederholt sich x-mal und lässt sich auch nur über den Task-Manager stoppen! Lasse ich Tesseract seinen dauernden Abstürze / Neustarts laufen, hat er irgendwann 100% erreicht, aber in dem gespeicherten PDF wird kein einziger Suchbegriff gefunden.

    Dabei hat das vor etwa einem halben Jahr noch bestens und schneller funktioniert als mit dem PDF-XChange-Editor.

    Das einzige, was seitdem passiert ist, waren die üblichen Windows-10-Updates aber seit wann mischt sich Windows in gängige Software wie eben PDF24 ein?

    Ich bin einfach ratlos hoffe sehr, dass mein Problem erkannt und abgestellt wird.

    Noch alles Gute für 2021!

    Michael

     

    #15885
    mmchen49
    Teilnehmer

    Hallo Stefan,

    Was bitte heißt "um die Console in der OCR App zu öffnen und dann den Vorgang starten" Welche OCR App und welcher Vorgang?

    Und dann: welcher OCR Prozess?

    Für mich als jemand, der sich mit Programmierung o. ä. kaum auskennt, sind das Böhmische Dörfer und helfen einem wie mir wirklich nicht weiter.

    Und übrigens: auf meinen Post irgenwann in 2020 zu den nicht funktionierenden, automatischen Updates habe ich nie etwas von Dir gehört.

    Für eine Erklärung wäre ich dankbar.

    Grüße

    Michael

     

     

    #15907
    ba0645
    Teilnehmer

    Auch bei mir funktioniert seit dem Update auf die 10.0.8 das OCR nicht mehr richtig.
    Es wird zwar eine "Art" OCR durchgeführt. Beim markieren eines Textes und Einfügen in z.B. Notepad kommen jedoch nur Kauderwelsch und Sonderzeichen an.

    Alte PDFs die mit 9.x erstellt wurden funktionieren einwandfrei.

    Ist der Fehler bereits bekannt und auch nachvollziehbar?
    Bis wann dürfte das Problem behoben sein?

    Falls ich was zur Fehlersuche beisteuern kann bitte Info.

Ansicht von 9 Beiträgen - 1 bis 9 (von insgesamt 9)
  • Du musst angemeldet sein, um auf dieses Thema antworten zu können.