Texterkennung mit Problemen; nicht brauchbar

Schlagwörter: OCR Texterkennung

Dieses Thema hat 2 Antworten sowie 2 Teilnehmer und wurde zuletzt vor vor 7 Jahren von frank aktualisiert.

Ansicht von 3 Beiträgen – 1 bis 3 (von insgesamt 3)

Autor

Beiträge
2019-03-18 um 17:41 Uhr #14365

frank
Teilnehmer

Hallo!
Nachdem ich die neue Texterkennungs-Möglichkeit in der aktuellsten Version gesehen habe, musste ich sie auch gleich ausprobieren.
Leider war das Ergebnis nicht so berauschend.
Ich scannte ein einfaches, kurzen Anschreiben, dass ich als eingescanntes Bild im PDF-Format gespeichert wurde. Das Anschreiben enthielt nur Text, keine Tabellen oder Bilder, dafür ein Adressfeld, einen Briefkopf ("Logo") und eben den Brieftext.
Das gespeicherte Ergebnis der OCR-Erkennung sah gut aus, allerdings wurde beim Versuch, den Brieftext zu markieren und zu kopieren, nicht der Brieftext als ganzes markiert. Dafür wurden viele, nicht dem Absatz zugehörige Wörter markiert, auch solche, die zur Anschrift oder dem Briefkopf gehörten. Andere Wörter des Absatzes verloren ihre Markierung.
Das herauskopierte Ergebnis was auch ein wildes durcheinander von Wörtern aus allen Teilen des gescannten Briefs. Bei unterschiedlichen Tests wurde die kopierten Bereiche auch doppelt eingefügt.
Die Funktion ist bei dem Ergebnis unbrauchbar.
Müssen die gescannten Dateien irgend welchen Formalien entsprechen, wenn die Bilder nach dem Scanvorgang als PDF-Dateien gespeichert werden?
Mit einem Bildformat (.jpg) habe ich die Texterkennung nicht getestet.
Grüße
Frank

2019-03-18 um 17:49 Uhr #14366

Stefan Ziegler
Administrator

Die Bilder sollten eine Ausreichend hohe Auflösung haben. 300 DPI oder mehr sollte es sein. Ansonsten ist die OCR Texterkennung ganz gut. Nicht perfekt, aber erkennt in der Regel Text solide. Gerne können Sie mir Testdateien an forum@pdf24.org zusenden, damit ich eventuelle Probleme untersuchen kann.

2019-03-19 um 8:51 Uhr #14367

frank
Teilnehmer

Hallo Stefan,
danke für die schnelle Antwort. Was die Auflösung angeht, so war diese geringer als 300 dpi. Ich habe nicht darauf geachtet. Ich scanne Texte immer nur mit 150 dpi und in Graustufen, weil die Dateien sonst so groß werden.
Der Text selber wurde auch gut erkannt, das war nicht das Problem. Das Problem war, dass ich beim Textmarkieren in der texterkannten Datei nur ein wildes Durcheinander an einzelnen Worten oder Phrasen markiert bekam, keine zusammenhängenden Abschnitte.
Ich habe die texterkannte Datei heute morgen noch mal im Acrobat Reader geöffnet und Text markiert, weil ich das Phänomen einem Kollegen zeigen wollte. Zu meiner Überraschung ging das jetzt sauber getrennt nach Absätzen und Abschnitten, ohne das Durcheinander von gestern oder Doppeleinfügungen. Mein Rechner war über Nacht aus.
Ich werde das weiter testen und mich ggf. noch mal melden.
Schönen Dienstag!
Frank
Autor

Beiträge

Ansicht von 3 Beiträgen – 1 bis 3 (von insgesamt 3)

Du musst angemeldet sein, um auf dieses Thema antworten zu können.