Umwandeln ganzer PDF Dateien in Textfiles

  • Hallo,
    ich hab mir diesen OCR Tesseract heruntergeladen und meine auch verstanden zu haben, wie das dann mit der Frakturschrifterkennung funktioniert. Damit bin ich zufrieden, im Prinzip. Meine Frage ist nun: Gibt es eine Möglichkeit, ein ganzes PDF auf einmal in ein Textfile umzuwandeln oder muss ich immer alle Seiten einzeln in eine Bilddatei umwandeln und dann jede Seite einzeln umwandeln? Hat da jemand eine Erfahrung/Ahnung?
    Danke im voraus.

    Lg
    Thomas

  • Tesseract 4.00 mit gewünschtem Sprachpaket installieren, neueste Version von Gimagereader aufspielen. Im Interface im Drop-Down-Menu "OCR mode" Plain text auswählen und in das "Sources"-Feld die gewünschte PDF-Datei ziehen. Wenn man dann auf den Knopf (Recognize...etc) drückt, öffent sich darunter ein Drop-Down-Menu in dem man das Feld "Multiple Pages" auswählen kann. Es öffnet sich darauf ein Dialogfenster, das fragt, welche Seiten erkannt werden sollen, auf welche Art und ob Quellordner und Namen vorangestellt werden sollen. Mit OK bestätigen und dann geht`s los.


    Nach Standardwert "Entire Page". liest er einfach die ganze Seite von links oben nach rechts unten runter. Ich wäre allerdings nicht so guter Dinge, dass das Ergebniss gleich beim ersten Mal verblüffend sein wird. Die Spaltenerkennung funktioniert immer noch nicht so super und immer wieder glypht der Ausgabetext einer Seite zum Ende aus, obwohl eine gleichmäßige Aufnahmequalität vorliegt. Das habe ich bei der scheibchenhaften Texterkennung seltener in dieser krassen Form (ist natürlich auch mühseliger). Mit AutoDetect kann man es zwar mal versuchen, aber, wie auch beim Text, gibt es hier schnell Probleme, etwa wenn Überschriften kommen oder Spalten nicht proportional über die Seite verteilt sind. Ach, und das Verfahren dauert eine Weile. Bei mir waren es jetzt testweise 4 :37 für 41 Seiten Fraktur.

  • Meine Frage ist nun: Gibt es eine Möglichkeit, ein ganzes PDF auf einmal in ein Textfile umzuwandeln oder muss ich immer alle Seiten einzeln in eine Bilddatei umwandeln und dann jede Seite einzeln umwandeln? Hat da jemand eine Erfahrung/Ahnung?

    Ich hatte mir vor einigen Jahren ein Tablet gekauft, da ich entdeckt hatte, daß es tausende schöne alte Bücher als ebook kostenlos gibt. Als ich die dann in Antiqua vor mir gesehen habe, schien mir das nicht richtig. Bislang hatte ich alte Bücher fast immer bei jemandem als altes Exemplar in Fraktur gefunden. Das epub muß man doch automatisch auspacken und mit anderer Schriftart wieder einpacken können, dachte ich mir. Das habe ich auch hinbekommen, doch dann sah es noch schlimmer aus: Überall die falschen "s". Oh Gott!
    Kurz und gut, ich habe da einen gewissen Spleen entwickelt und wollte es wissen. Die Sache ist die: Für die richtigen S und die Ligaturen braucht man eine Datenbank der Wörter, die im Prinzip endlos wächst. Herausgekommen ist ein Script, was das ebook auspackt (es gehen nur bestimmte Formate derzeit mit voraus bekanntem Stylesheet), die Wörter alle durchgeht und sie ersetzt. Steht ein Wort mit s in der Mitte noch nicht in der DB, wird es in eine gesonderte Datei geschrieben, die ich dann manuell abarbeite. Pro Ebook werden es jeweils weniger Wörter, aber ganz automatisch geht es jedenfalls nicht. Im Moment wird alles in die Kodierung der Leipzig Fraktur gewandelt. Man kann das natürlich erweitern, aber es war natürlich nur mein Spleen-Projekt und nicht mein Lebensinhalt.
    Wenn du den Text aus Deinem PDF herauskopieren und möglichst in eine HTML-Datei packen kannst, könnte ich das daran einma versuchen.

  • Ich hatte schon vor langer Zeit unter "OCR Frakturerkennung" angekündigt, einen Vergleich zwischen tesseract bzw. FreeOCR einerseits und dem kostenpflichtigen Programm Findereader 15 darzustellen. Nun, einen Erkennungsvergleich habe ich nicht durchgeführt, einen sehr wesentlichen Vorteil bei der Erkennung selbst durch Finereader habe ich nicht empfunden.

    Allerdings bietet Finereader sehr viel mehr als nur die zusätzliche Frakturschrifterkennung.

    Ein Vorteil besteht darin, dass Finereader nicht klar erkannte Buchstaben enzeigt und so die Möglichkeit bietet, sofort eine Korrektur vorzunehmen. Ferner sind verschiedene Möglichkeiten der Abspeicherung gegeben, von durchsuchbarer pdf-Datei über docx- und odt-Dateien (also Word oder Libreoffice) bis zu epub und reinen txt-Dateien.

    Für mich hat sich der Kauf von Finereader 15 jedenfalls gelohnt.

  • Ich habe das Thema gründlich mißverstanden. Mein Problem war immer, daß ich im digitalen Zeitalter alte Texte auch bitte in der passenden Fraktur lesen wollte.
    Bei der Texterkennung kommt vermutlich Antiqua heraus, oder? Wäre auch zu schön sonst..

  • Nach der Texterkennung eines Frakturtextes kannst du - soweit urheberrechtlich kein Problem besteht - nach Deinem Belieben mit dem Text verfahren, ihn zum Beispiel auch in eine neue pdf-Datei im Frakturschrift umwandeln.