frankatwork

Verfasste Forenbeiträge

Ansicht von 2 Beiträgen - 1 bis 2 (von insgesamt 2)
  • Autor
    Beiträge
  • als Antwort auf: Problem Auslesen Textinhalt eines PDFs #17078
    frankatwork
    Teilnehmer

    Also nach einigen Weiteren Nachforschungen habe ich den Grund und die Lösung gefunden.

    PDF24 encoded die Textinformationen tatsächlich anders als die, mit denen ich bisher zu tun hatte.

    Ich habe noch eine andere Bibliothek gefunden, die das schafft.
    Gut, da sind noch Unschärfen bei Umlauten und Sonderzeichen. Aber das stört hier nicht.

    http://www.phpclasses.org/package/9732-PHP-Extract-text-contents-from-PDF-files.html
    https://github.com/christian-vigh-phpclasses/PdfToText

    Damit kann ich dann aus allen Formaten den Inhalt auslesen.

    Vielen Dank - auch an Christian

    Frank

     

    als Antwort auf: Problem Auslesen Textinhalt eines PDFs #17076
    frankatwork
    Teilnehmer

    Hallo,

    vielen Dank für die Info. Nur leider hilft mir das nicht wirklich weiter.
    Ich bin nun mal kein PDF-Spezialist. Das Thema ist für mich nur ein Nebenkriegsschauplatz.
    Die Infos werden jemanden, der das alles kennt sicher anspringen. Bei mir zirpen nur die Grillen.

    Diese Extraktionsfunktion nimmt einfach nacheinander alles was zwischen allen stream und endstream steht
    und behandelt die einzeln. Egal wieviel streams das sind.
    Ob das nun der gesuchte Text, Bild, Fonts, Parameter oder was weiss ich ist spielt für mich eigentlich keine Rolle.
    Wenn der gesuchte Text da irgendwo in dem Datenwust vorhanden ist dann findet der Algorithmus den auch.

    Ich habe wie gesagt verschiedene unterschiedlich komplexe und aufwendige Bibliotheken versucht, die genau das machen (sollten) was ich suche. Aber keiner von denen findet irgendwas. Wenn die das nicht tun läge aus meiner Sicht der Schluss nahe, dass sowohl PDF24 als auch z.B. MS irgendwas anders machen. Möglicherweise wegen neuerer Spezifikationen. Ich habe noch PDFs aus zwei weiteren Quellen getestet. Bei denen funktioniert alles wie es soll.

    Mir ist auch nicht ganz klar, was genau ich mit QPDF machen soll.

    Vielen Dank

    Frank

Ansicht von 2 Beiträgen - 1 bis 2 (von insgesamt 2)