Seit Update funktioniert die Texterkennung nicht mehr.

Schlagwörter: OCR

Dieses Thema hat 16 Antworten sowie 7 Teilnehmer und wurde zuletzt vor vor 3 Jahren, 9 Monaten von mmchen49 aktualisiert.

Ansicht von 17 Beiträgen – 1 bis 17 (von insgesamt 17)

Autor

Beiträge
2020-12-23 um 11:59 Uhr #15837

flummimama
Teilnehmer

Seit dem Update auf 10.0 funktioniert die Texterkennung nicht mehr.
Auch nach der Deinstallation und neu Installation der alten Version wird kein einziges Wort mehr erkannt.

2020-12-30 um 16:56 Uhr #15839

sturmi63
Teilnehmer

Bei mir wird ebenfalls kein einziges Wort mehr erkannt.

Kenne mich mit diesem Forum nicht aus.

Keine Ahnung ob es korrekt ist wenn ich mich hier anschließe.

2021-01-11 um 14:59 Uhr #15853

Stefan Ziegler
Administrator

Welche Version nutzen Sie genau? Eventuell auch mal F12 drücken, um die Console in der OCR App zu öffnen und dann den Vorgang starten, damit man die Ausgaben vom OCR Prozess angezeigt bekommt. Hier kann man dann eventuell etwas mehr erkennen.

2021-01-16 um 14:51 Uhr #15868

sturmi63
Teilnehmer

AKtuelle Version 10.0.7

Keine Updates verfügbar nach Prüfung.

Ausgabe der F12 Console bei dem OCR Prozess:

GPL Ghostscript 9.53.3 (2020-10-01)

Copyright (C) 2020 Artifex Software, Inc. All rights reserved.

This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:

see the file COPYING for details.

Processing pages 1 through 1.

Page 1

================

"C:\Program Files\PDF24\tesseract\tesseract.exe" "--tessdata-dir" "C:\Users\sturm\AppData\Local\PDF24\tesseract\4.1.1\tessdata" "C:\Users\sturm\AppData\Local\Temp\PDF24\ocr_2668330218_2226355356_2.png" "C:\Users\sturm\AppData\Local\Temp\PDF24\ocr_2668330890_2885127900_3" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "150" "--oem" "3" "pdf" "txt"

----------------

TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica

2021-01-18 um 9:56 Uhr #15869

Stefan Ziegler
Administrator

Kommt in der Konsole noch mehr? Die tesseract.exe wird aufgerufen aber man sieht hier nicht, dass dieser Aufruf auch beendet wird.

2021-01-22 um 11:31 Uhr #15881

flummimama
Teilnehmer

Ich habe die Version 9.2 verwendet, da hat noch alles funktioniert.
Nach dem Update auf 10.0 funktioniert es nicht mehr.

Auch nach Neuinstallation der alten Version:

"C:\Program Files (x86)\PDF24\tesseract\tesseract.exe" "--tessdata-dir" "C:\Users\tinas\AppData\Local\PDF24\tesseract\4.1.1\tessdata" "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605863093_3878574171_2.png" "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605865828_1315230980_3" "-l" "deu" "-c" "textonly_pdf=1" "--dpi" "300" "--oem" "3" "pdf" "txt"
----------------
TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica
================
"C:\Program Files (x86)\PDF24\gs\bin\gswin32c.exe" -dBATCH -dNOPAUSE -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress "-sOutputFile=C:\Users\tinas\AppData\Local\Temp\PDF24\605869062_4032048259_0.pdf" -dCompatibilityLevel=1.7 -dAutoRotatePages=/PageByPage -dEmbedAllFonts=true -dSubsetFonts=true -dProcessColorModel=/DeviceRGB -dColorConversionStrategy=/LeaveColorUnchanged -dPreserveAnnots=true -dAutoFilterColorImages=true -dAutoFilterGrayImages=true -dAutoFilterMonoImages=true -r150 -dColorImageResolution=150 -dGrayImageResolution=150 -dMonoImageResolution=150 -dDownsampleColorImages=true -dColorImageDownsampleType=/Bicubic -dColorImageDownsampleThreshold=1.0 -dDownsampleGrayImages=true -dGrayImageDownsampleType=/Bicubic -dGrayImageDownsampleThreshold=1.0 -dDownsampleMonoImages=true -dMonoImageDownsampleType=/Subsample -dMonoImageDownsampleThreshold=1.0 -dPassThroughJPEGImages=false -c " <</ColorImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</ColorACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams" -f "C:\Users\tinas\AppData\Local\Temp\PDF24\ocr_605869062_4166621583_4.pdf" -c "[ /Creator (PDF24 Creator) /DOCINFO pdfmark"
----------------
GPL Ghostscript 9.27 (2019-04-04)
Copyright (C) 2018 Artifex Software, Inc. All rights reserved.
This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:
see the file COPYING for details.
Processing pages 1 through 1.
Page 1

2021-01-24 um 14:46 Uhr #15884

mmchen49
Teilnehmer

Updates? Welche Updates? Ich habe immer noch die Version 9.2.2 und wenn ich nach Updates suche heißt es "Es wurde kein Update gefunden".

Und starte ich die Texterkennung für eine Datei (3,8 mb), funktioniert die seit Neuestem nicht mehr, sondern "Tesseract ..." stürzt nach dem Start ab, startet selber wieder und stürzt ab. Das wiederholt sich x-mal und lässt sich auch nur über den Task-Manager stoppen! Lasse ich Tesseract seinen dauernden Abstürze / Neustarts laufen, hat er irgendwann 100% erreicht, aber in dem gespeicherten PDF wird kein einziger Suchbegriff gefunden.

Dabei hat das vor etwa einem halben Jahr noch bestens und schneller funktioniert als mit dem PDF-XChange-Editor.

Das einzige, was seitdem passiert ist, waren die üblichen Windows-10-Updates aber seit wann mischt sich Windows in gängige Software wie eben PDF24 ein?

Ich bin einfach ratlos hoffe sehr, dass mein Problem erkannt und abgestellt wird.

Noch alles Gute für 2021!

Michael

2021-01-24 um 14:55 Uhr #15885

mmchen49
Teilnehmer

Hallo Stefan,

Was bitte heißt "um die Console in der OCR App zu öffnen und dann den Vorgang starten" Welche OCR App und welcher Vorgang?

Und dann: welcher OCR Prozess?

Für mich als jemand, der sich mit Programmierung o. ä. kaum auskennt, sind das Böhmische Dörfer und helfen einem wie mir wirklich nicht weiter.

Und übrigens: auf meinen Post irgenwann in 2020 zu den nicht funktionierenden, automatischen Updates habe ich nie etwas von Dir gehört.

Für eine Erklärung wäre ich dankbar.

Grüße

Michael

2021-02-04 um 13:30 Uhr #15907

ba0645
Teilnehmer

Auch bei mir funktioniert seit dem Update auf die 10.0.8 das OCR nicht mehr richtig.
Es wird zwar eine "Art" OCR durchgeführt. Beim markieren eines Textes und Einfügen in z.B. Notepad kommen jedoch nur Kauderwelsch und Sonderzeichen an.

Alte PDFs die mit 9.x erstellt wurden funktionieren einwandfrei.

Ist der Fehler bereits bekannt und auch nachvollziehbar?
Bis wann dürfte das Problem behoben sein?

Falls ich was zur Fehlersuche beisteuern kann bitte Info.

2021-03-07 um 16:11 Uhr #15975

mmchen49
Teilnehmer

Hallo Stefan,

anscheinend hast Du keine Lust mehr, auf Fragen zu antworten oder warum tut sich in dieser Hinsicht seit Januar 2021 nichts mehr? Alle Fragen zu OCR-Fehlern u. a. blieben bisher unbeantwortet.

Das ist einfach nur ärgerlich und schade.

Grüße

Michael

2021-03-09 um 9:02 Uhr #15979

Stefan Ziegler
Administrator

Hallo, ich kann die Probleme aktuell nicht nachvollziehen. Eventuell hängt es irgendwie damit zusammen, dass der Tesseract Build bei euch nicht korrekt läuft. Das könnte man prüfen, indem man sich mal einen anderen Build aus dem Internet lädt und mit dem Build im Installationsverzeichnis ersetzt.

Alternativ einfach auch mal direkt die tesseract.exe mit einem Bild aufrufen und schauen, was die Erkennung bringt. Open im Post von flummimama sieht man die Kommandozeile, die man verwenden kann und im Ausgabeordner sollte dann auch eine Textdatei zu finden sein, die den gesamten Text enthält. Die andere Datei ist die Overlay-PDF, also faktisch eine Seite mit unsichtbarem Text, der auf die eigentliche Datei gelegt wird. Den Text in dieser PDF kann man aber markieren und kopieren. Wenn dieser Tet schon nicht korrekt ist, dann ist das Problem jetzt nicht bei PDF24 zu suchen, sondern eher bei Tesseract.

Tritt das Problem mit allen PDF Dateien auf oder nur mit bestimmten? Wenn nur bestimmte betroffen sind, dann kann man mir diese an forum@pdf24.org zusenden.

2021-04-28 um 16:35 Uhr #16047

stefanos_87
Teilnehmer

Hat schon jemand die Texterkennung wieder ans laufen bekommen? Ich starte PDF24-OCR aus der Toolbox heraus, wähle eine PDF-Datei aus, aber es werden dann nur 0 Wörter erkannt. Schade, dass das nicht (mehr) funktioniert.

2021-05-31 um 18:10 Uhr #16062

mmchen49
Teilnehmer

Lieber Stefan,

anscheinend bin ich nicht der einzige, der deine "Hilfe" nicht versteht (siehe stefanos_87). Mit Build, Tesseract, selbst Kommandozeile etc. kann ich nichts anfangen (wie bereits geschrieben).

Ich rufe PDF24 auf, wähle eines der Tools aus, und hoffe dan. dass das, was dort vorgegeben ist, funktioniert und "Text erkenen" funktioniert nun einfach nicht!

Meine Version ist übrigens immer noch 9.2.2, da mir bei der Abfrage nach Updates "Es sind keine Updates vorhanden" angezeigt wird.

Da kann doch etwas nicht stimmen!?

Grüße

Michael

2021-09-07 um 20:30 Uhr #16123

wp48
Teilnehmer

Version 10.1.1 Online ok, offline 0 Erkennung

TESS> Tesseract Open Source OCR Engine v4.1.1 with Leptonica

================

"D:\data\Programme\tools\PDF24\gs\bin\gswinc.exe" -dBATCH -dNOPAUSE -dSAFER -dALLOWPSTRANSPARENCY -sDEVICE=pdfwrite -dPDFSETTINGS=/prepress "-sOutputFile=C:\Users\Karl\AppData\Local\Temp\PDF24\277216406_3730871605_1.pdf" -dCompatibilityLevel=1.7 -dAutoRotatePages=/PageByPage -dEmbedAllFonts=true -dSubsetFonts=true -dProcessColorModel=/DeviceRGB -dColorConversionStrategy=/LeaveColorUnchanged -dPreserveAnnots=true -dAutoFilterColorImages=true -dAutoFilterGrayImages=true -dAutoFilterMonoImages=true -r150 -dColorImageResolution=150 -dGrayImageResolution=150 -dMonoImageResolution=150 -dDownsampleColorImages=true -dColorImageDownsampleType=/Bicubic -dColorImageDownsampleThreshold=1.0 -dDownsampleGrayImages=true -dGrayImageDownsampleType=/Bicubic -dGrayImageDownsampleThreshold=1.0 -dDownsampleMonoImages=true -dMonoImageDownsampleType=/Subsample -dMonoImageDownsampleThreshold=1.0 -dPassThroughJPEGImages=false -c " <</ColorImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</ColorACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams <</GrayACSImageDict <</QFactor 0.5 /Blend 1 /ColorTransform 1 /HSample [2 1 1 2] /VSample [2 1 1 2]>> >> setdistillerparams" -f "C:\Users\Karl\AppData\Local\Temp\PDF24\ocr_277216390_2955980242_57_ocred.pdf" -c "[ /Creator (PDF24 Creator) /DOCINFO pdfmark"

----------------

GPL Ghostscript 9.54.0 (2021-03-30)

Copyright (C) 2021 Artifex Software, Inc. All rights reserved.

This software is supplied under the GNU AGPLv3 and comes with NO WARRANTY:

see the file COPYING for details.

Processing pages 1 through 5.

Page 1

Page 2

Page 3

Page 4

Page 5

Verschiedene Qualitätsstufen probiert, stets 5/5 Seiten, 0 Wörter. Online auf Anhieb ok.

Falls es hilft:

dir C:\Users\Karl\AppData\Local\Temp\PDF24\ /od

07.09.2021 22:23 142.669 ocr_277417812_43967616_75.pdf

07.09.2021 22:24 289.080 unlocked_277434875_2682314220_77.pdf

07.09.2021 22:24 289.089 ocr_277435890_3052103189_78_opt.pdf

07.09.2021 22:24 159.626 ocr_277436921_1768803339_79.png

07.09.2021 22:24 0 ocr_277438140_3698515010_80.txt

07.09.2021 22:24 0 ocr_277438140_3698515010_80.pdf

07.09.2021 22:24 213.140 ocr_277444375_3238217239_81.png

07.09.2021 22:24 0 ocr_277446281_4086024369_82.pdf

07.09.2021 22:24 0 ocr_277446281_4086024369_82.txt

07.09.2021 22:24 216.811 ocr_277451343_568275445_83.png

07.09.2021 22:24 0 ocr_277452468_856738526_84.pdf

07.09.2021 22:24 0 ocr_277452468_856738526_84.txt

07.09.2021 22:24 238.319 ocr_277456921_20650437_85.png

07.09.2021 22:24 0 ocr_277458093_1782418426_86.pdf

07.09.2021 22:24 0 ocr_277458093_1782418426_86.txt

07.09.2021 22:24 178.446 ocr_277462328_3451160291_87.png

07.09.2021 22:24 0 ocr_277463718_78074184_88.pdf

07.09.2021 22:24 0 ocr_277463718_78074184_88.txt

07.09.2021 22:24 289.362 ocr_277468109_3471627667_89_ocred.pdf

07.09.2021 22:24 291.110 ocr_277468125_4055842974_90.pdf

2021-09-11 um 13:44 Uhr #16126

mmchen49
Teilnehmer

Hallo WP48,

was, bitte, soll ein normaler User, KEIN Programmierer oder PC-Nerd, mit Deiner Tabelle (?) anfangen.

Oder verstehst Du die folgenden Angaben: suche MH-BE 9 PF IV a oder b mit UV-MDF-30-3-15 mZB, ohne UV 20-4-01?

Vermutlich nicht, es sei denn, Du sammelst wie ich Markenheftchen der Bundesrepublik-Berlin.

Anscheinend hat bisher niemand nicht nur meine Frage / mein Problem verstanden und nachdem wir bald Jahresgedächtnis haben, ohne dass sich etwas getan hat, gebe ich auf und schließe für mich kopfschüttelnd ob der unverständlichen Antworten auf eine klare, einfache Frage, das Thema.

Dennoch werde ich PDF24 weiterhin nutzen und mir bzgl. der genannten Probleme anderweitig behelfen.

Beste Grüße

Michael

2021-09-11 um 14:37 Uhr #16127

wp48
Teilnehmer

Sorry Michael,

diese Daten sind nicht für Endverbraucher, sondern für Stefan Ziegler, der um solche debug-Daten gebeten hatte.

"<span style="color: #000000; font-family: 'Open Sans', sans-serif;">Falls es hilft:" ist eine Aufforderung an Stefan, mehr Info bereitzustellen, wenn diese Daten nicht hilfreich sind. Ich will ihm helfen, den Fall zu klären. Offensichtlich kann er den Fehler nicht nachvollziehen. Das ist aber die Voraussetzung dafür, ihn zu finden und zu beseitigen.</span>

2021-09-11 um 23:47 Uhr #16128

mmchen49
Teilnehmer

Danke, WP48, aber das hätte oben als erstes stehen können.

Und warum die Texterkennung nicht mehr funktioniert, muss doch in einem Test mit dem Creator auffallen oder sehe ich das als zu einfach an? Schließlich gibt es ja mehrere Anwender, die das gleiche Problem seit dem angegeben Update hatten.

Warum darüberhinaus kein weiteres Update möglich ist (wie weiter oben beschrieben): keine Stellungnahme!

Michael
Autor

Beiträge

Ansicht von 17 Beiträgen – 1 bis 17 (von insgesamt 17)

Du musst angemeldet sein, um auf dieses Thema antworten zu können.