Seit Update funktioniert die Texterkennung nicht mehr.

Startseite Foren PDF24 Creator Allgemeines Seit Update funktioniert die Texterkennung nicht mehr.

Schlagwörter: 

Ansicht von 17 Beiträgen - 1 bis 17 (von insgesamt 17)
  • Autor
    Beiträge
  • #15837
    flummimama
    Teilnehmer

    Seit dem Update auf 10.0 funktioniert die Texterkennung nicht mehr.
    Auch nach der Deinstallation und neu Installation der alten Version wird kein einziges Wort mehr erkannt.

    #15839
    sturmi63
    Teilnehmer

    Bei mir wird ebenfalls kein einziges Wort mehr erkannt.

    Kenne mich mit diesem Forum nicht aus.

    Keine Ahnung ob es korrekt ist wenn ich mich hier anschließe.

    #15853
    Stefan Ziegler
    Verwalter

    Welche Version nutzen Sie genau? Eventuell auch mal F12 drücken, um die Console in der OCR App zu öffnen und dann den Vorgang starten, damit man die Ausgaben vom OCR Prozess angezeigt bekommt. Hier kann man dann eventuell etwas mehr erkennen.

    #15868
    sturmi63
    Teilnehmer

    AKtuelle Version 10.0.7

    Keine Updates verfügbar nach Prüfung.

    Ausgabe der F12 Console bei dem OCR Prozess:

    GPL Ghostscript 9.53.3 (2020-10-01)

    Copyright (C) 2020 Artifex Software, Inc.  All rights reserved.

    This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:

    see the file COPYING for details.

    Processing pages 1 through 1.

    Page 1

    ================

    "C:\Program Files\PDF24\tesseract\tesseract.exe" "--tessdata-dir" "C:\Users\sturm\AppData\Local\PDF24\tesseract\4.1.1\tessdata" "C:\Users\sturm\AppData\Local\Temp\PDF24\ocr_2668330218_2226355356_2.png" "C:\Users\sturm\AppData\Local\Temp\PDF24\ocr_2668330890_2885127900_3" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "150" "--oem" "3" "pdf" "txt"

    ----------------

    TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica

     

    #15869
    Stefan Ziegler
    Verwalter

    Kommt in der Konsole noch mehr? Die tesseract.exe wird aufgerufen aber man sieht hier nicht, dass dieser Aufruf auch beendet wird.

    #15881
    flummimama
    Teilnehmer

    Ich habe die Version 9.2 verwendet, da hat noch alles funktioniert.
    Nach dem Update auf 10.0 funktioniert es nicht mehr.

    Auch nach Neuinstallation der alten Version:

    "C:\Program Files (x86)\PDF24\tesseract\tesseract.exe" "--tessdata-dir" "C:\Users\tinas\AppData\Local\PDF24\tesseract\4.1.1\tessdata" "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605863093_3878574171_2.png" "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605865828_1315230980_3" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "pdf" "txt"
    ----------------
    TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica
    ================
    "C:\Program Files (x86)\PDF24\gs\bin\gswin32c.exe" -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress "-sOutputFile=C:\Users\tinas\AppData\Local\Temp\PDF24\605869062_4032048259_0.pdf" -dCompatibilityLevel=1.7 -dAutoRotatePages=/PageByPage -dEmbedAllFonts=true -dSubsetFonts=true -dProcessColorModel=/DeviceRGB -dColorConversionStrategy=/LeaveColorUnchanged -dPreserveAnnots=true -dAutoFilterColorImages=true -dAutoFilterGrayImages=true -dAutoFilterMonoImages=true -r150 -dColorImageResolution=150 -dGrayImageResolution=150 -dMonoImageResolution=150 -dDownsampleColorImages=true -dColorImageDownsampleType=/Bicubic -dColorImageDownsampleThreshold=1.0 -dDownsampleGrayImages=true -dGrayImageDownsampleType=/Bicubic -dGrayImageDownsampleThreshold=1.0 -dDownsampleMonoImages=true -dMonoImageDownsampleType=/Subsample -dMonoImageDownsampleThreshold=1.0 -dPassThroughJPEGImages=false -c " <</ColorImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</ColorACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams" -f "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605869062_4166621583_4.pdf" -c "[ /Creator (PDF24 Creator) /DOCINFO pdfmark"
    ----------------
    GPL Ghostscript 9.27 (2019-04-04)
    Copyright (C) 2018 Artifex Software, Inc.  All rights reserved.
    This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
    see the file COPYING for details.
    Processing pages 1 through 1.
    Page 1

    #15884
    mmchen49
    Teilnehmer

    Updates? Welche Updates? Ich habe immer noch die Version 9.2.2 und wenn ich nach Updates suche heißt es "Es wurde kein Update gefunden".

    Und starte ich die Texterkennung für eine Datei (3,8 mb), funktioniert die seit Neuestem nicht mehr, sondern "Tesseract ..." stürzt nach dem Start ab, startet selber wieder und stürzt ab. Das wiederholt sich x-mal und lässt sich auch nur über den Task-Manager stoppen! Lasse ich Tesseract seinen dauernden Abstürze / Neustarts laufen, hat er irgendwann 100% erreicht, aber in dem gespeicherten PDF wird kein einziger Suchbegriff gefunden.

    Dabei hat das vor etwa einem halben Jahr noch bestens und schneller funktioniert als mit dem PDF-XChange-Editor.

    Das einzige, was seitdem passiert ist, waren die üblichen Windows-10-Updates aber seit wann mischt sich Windows in gängige Software wie eben PDF24 ein?

    Ich bin einfach ratlos hoffe sehr, dass mein Problem erkannt und abgestellt wird.

    Noch alles Gute für 2021!

    Michael

     

    #15885
    mmchen49
    Teilnehmer

    Hallo Stefan,

    Was bitte heißt "um die Console in der OCR App zu öffnen und dann den Vorgang starten" Welche OCR App und welcher Vorgang?

    Und dann: welcher OCR Prozess?

    Für mich als jemand, der sich mit Programmierung o. ä. kaum auskennt, sind das Böhmische Dörfer und helfen einem wie mir wirklich nicht weiter.

    Und übrigens: auf meinen Post irgenwann in 2020 zu den nicht funktionierenden, automatischen Updates habe ich nie etwas von Dir gehört.

    Für eine Erklärung wäre ich dankbar.

    Grüße

    Michael

     

     

    #15907
    ba0645
    Teilnehmer

    Auch bei mir funktioniert seit dem Update auf die 10.0.8 das OCR nicht mehr richtig.
    Es wird zwar eine "Art" OCR durchgeführt. Beim markieren eines Textes und Einfügen in z.B. Notepad kommen jedoch nur Kauderwelsch und Sonderzeichen an.

    Alte PDFs die mit 9.x erstellt wurden funktionieren einwandfrei.

    Ist der Fehler bereits bekannt und auch nachvollziehbar?
    Bis wann dürfte das Problem behoben sein?

    Falls ich was zur Fehlersuche beisteuern kann bitte Info.

    #15975
    mmchen49
    Teilnehmer

    Hallo Stefan,

    anscheinend hast Du keine Lust mehr, auf Fragen zu antworten oder warum tut sich in dieser Hinsicht seit Januar 2021 nichts mehr? Alle Fragen zu OCR-Fehlern u. a. blieben bisher unbeantwortet.

    Das ist einfach nur ärgerlich und schade.

    Grüße

    Michael

    #15979
    Stefan Ziegler
    Verwalter

    Hallo, ich kann die Probleme aktuell nicht nachvollziehen. Eventuell hängt es irgendwie damit zusammen, dass der Tesseract Build bei euch nicht korrekt läuft. Das könnte man prüfen, indem man sich mal einen anderen Build aus dem Internet lädt und mit dem Build im Installationsverzeichnis ersetzt.

    Alternativ einfach auch mal direkt die tesseract.exe mit einem Bild aufrufen und schauen, was die Erkennung bringt. Open im Post von flummimama sieht man die Kommandozeile, die man verwenden kann und im Ausgabeordner sollte dann auch eine Textdatei zu finden sein, die den gesamten Text enthält. Die andere Datei ist die Overlay-PDF, also faktisch eine Seite mit unsichtbarem Text, der auf die eigentliche Datei gelegt wird. Den Text in dieser PDF kann man aber markieren und kopieren. Wenn dieser Tet schon nicht korrekt ist, dann ist das Problem jetzt nicht bei PDF24 zu suchen, sondern eher bei Tesseract.

    Tritt das Problem mit allen PDF Dateien auf oder nur mit bestimmten? Wenn nur bestimmte betroffen sind, dann kann man mir diese an forum@pdf24.org zusenden.

     

     

    #16047
    stefanos_87
    Teilnehmer

    Hat schon jemand die Texterkennung wieder ans laufen bekommen? Ich starte PDF24-OCR aus der Toolbox heraus, wähle eine PDF-Datei aus, aber es werden dann nur 0 Wörter erkannt. Schade, dass das nicht (mehr) funktioniert.

    #16062
    mmchen49
    Teilnehmer

    Lieber Stefan,

    anscheinend bin ich nicht der einzige, der deine "Hilfe" nicht versteht (siehe stefanos_87). Mit Build, Tesseract, selbst Kommandozeile etc. kann ich nichts anfangen (wie bereits geschrieben).

    Ich rufe PDF24 auf, wähle eines der Tools aus, und hoffe dan. dass das, was dort vorgegeben ist, funktioniert und "Text erkenen" funktioniert nun einfach nicht!

    Meine Version ist übrigens immer noch 9.2.2, da mir bei der Abfrage nach Updates "Es sind keine Updates vorhanden" angezeigt wird.

    Da kann doch etwas nicht stimmen!?

    Grüße

    Michael

    #16123
    wp48
    Teilnehmer

    Version 10.1.1 Online ok, offline 0 Erkennung

     

    TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica

    ================

    "D:\data\Programme\tools\PDF24\gs\bin\gswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress "-sOutputFile=C:\Users\Karl\AppData\Local\Temp\PDF24\277216406_3730871605_1.pdf" -dCompatibilityLevel=1.7 -dAutoRotatePages=/PageByPage -dEmbedAllFonts=true -dSubsetFonts=true -dProcessColorModel=/DeviceRGB -dColorConversionStrategy=/LeaveColorUnchanged -dPreserveAnnots=true -dAutoFilterColorImages=true -dAutoFilterGrayImages=true -dAutoFilterMonoImages=true -r150 -dColorImageResolution=150 -dGrayImageResolution=150 -dMonoImageResolution=150 -dDownsampleColorImages=true -dColorImageDownsampleType=/Bicubic -dColorImageDownsampleThreshold=1.0 -dDownsampleGrayImages=true -dGrayImageDownsampleType=/Bicubic -dGrayImageDownsampleThreshold=1.0 -dDownsampleMonoImages=true -dMonoImageDownsampleType=/Subsample -dMonoImageDownsampleThreshold=1.0 -dPassThroughJPEGImages=false -c " <</ColorImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</ColorACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams" -f "C:\Users\Karl\AppData\Local\Temp\PDF24\ocr_277216390_2955980242_57_ocred.pdf" -c "[ /Creator (PDF24 Creator) /DOCINFO pdfmark"

    ----------------

    GPL Ghostscript 9.54.0 (2021-03-30)

    Copyright (C) 2021 Artifex Software, Inc.  All rights reserved.

    This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:

    see the file COPYING for details.

    Processing pages 1 through 5.

    Page 1

    Page 2

    Page 3

    Page 4

    Page 5

    Verschiedene Qualitätsstufen probiert, stets 5/5 Seiten, 0 Wörter. Online auf Anhieb ok.

    Falls es hilft:

    dir C:\Users\Karl\AppData\Local\Temp\PDF24\ /od

    07.09.2021  22:23           142.669 ocr_277417812_43967616_75.pdf

    07.09.2021  22:24           289.080 unlocked_277434875_2682314220_77.pdf

    07.09.2021  22:24           289.089 ocr_277435890_3052103189_78_opt.pdf

    07.09.2021  22:24           159.626 ocr_277436921_1768803339_79.png

    07.09.2021  22:24                 0 ocr_277438140_3698515010_80.txt

    07.09.2021  22:24                 0 ocr_277438140_3698515010_80.pdf

    07.09.2021  22:24           213.140 ocr_277444375_3238217239_81.png

    07.09.2021  22:24                 0 ocr_277446281_4086024369_82.pdf

    07.09.2021  22:24                 0 ocr_277446281_4086024369_82.txt

    07.09.2021  22:24           216.811 ocr_277451343_568275445_83.png

    07.09.2021  22:24                 0 ocr_277452468_856738526_84.pdf

    07.09.2021  22:24                 0 ocr_277452468_856738526_84.txt

    07.09.2021  22:24           238.319 ocr_277456921_20650437_85.png

    07.09.2021  22:24                 0 ocr_277458093_1782418426_86.pdf

    07.09.2021  22:24                 0 ocr_277458093_1782418426_86.txt

    07.09.2021  22:24           178.446 ocr_277462328_3451160291_87.png

    07.09.2021  22:24                 0 ocr_277463718_78074184_88.pdf

    07.09.2021  22:24                 0 ocr_277463718_78074184_88.txt

    07.09.2021  22:24           289.362 ocr_277468109_3471627667_89_ocred.pdf

    07.09.2021  22:24           291.110 ocr_277468125_4055842974_90.pdf

    #16126
    mmchen49
    Teilnehmer

    Hallo WP48,

    was, bitte, soll ein normaler User, KEIN Programmierer oder PC-Nerd, mit Deiner Tabelle (?) anfangen.

    Oder verstehst Du die folgenden Angaben: suche MH-BE 9 PF IV a oder b mit UV-MDF-30-3-15 mZB, ohne UV 20-4-01?

    Vermutlich nicht, es sei denn, Du sammelst wie ich Markenheftchen der Bundesrepublik-Berlin.

    Anscheinend hat bisher niemand nicht nur meine Frage / mein Problem verstanden und nachdem wir bald Jahresgedächtnis haben, ohne dass sich etwas getan hat, gebe ich auf und schließe für mich kopfschüttelnd ob der unverständlichen Antworten auf eine klare, einfache Frage, das Thema.

    Dennoch werde ich PDF24 weiterhin nutzen und mir bzgl. der genannten Probleme anderweitig behelfen.

    Beste Grüße

    Michael

    #16127
    wp48
    Teilnehmer

    Sorry Michael,

    diese Daten sind nicht für Endverbraucher, sondern für Stefan Ziegler, der um solche debug-Daten gebeten hatte.

    "<span style="color: #000000; font-family: 'Open Sans', sans-serif;">Falls es hilft:" ist eine Aufforderung an Stefan, mehr Info bereitzustellen, wenn diese Daten nicht hilfreich sind. Ich will ihm helfen, den Fall zu klären. Offensichtlich kann er den Fehler nicht nachvollziehen. Das ist aber die Voraussetzung dafür, ihn zu finden und zu beseitigen.</span>

    #16128
    mmchen49
    Teilnehmer

    Danke, WP48, aber das hätte oben als erstes stehen können.

    Und warum die Texterkennung nicht mehr funktioniert, muss doch in einem Test mit dem Creator auffallen oder sehe ich das als zu einfach an? Schließlich gibt es ja mehrere Anwender, die das gleiche Problem seit dem angegeben Update hatten.

    Warum darüberhinaus kein weiteres Update möglich ist (wie weiter oben beschrieben): keine Stellungnahme!

    Michael

Ansicht von 17 Beiträgen - 1 bis 17 (von insgesamt 17)
  • Du musst angemeldet sein, um auf dieses Thema antworten zu können.