Umwandeln ganzer PDF Dateien in Textfiles

  • Hallo,
    ich hab mir diesen OCR Tesseract heruntergeladen und meine auch verstanden zu haben, wie das dann mit der Frakturschrifterkennung funktioniert. Damit bin ich zufrieden, im Prinzip. Meine Frage ist nun: Gibt es eine Möglichkeit, ein ganzes PDF auf einmal in ein Textfile umzuwandeln oder muss ich immer alle Seiten einzeln in eine Bilddatei umwandeln und dann jede Seite einzeln umwandeln? Hat da jemand eine Erfahrung/Ahnung?
    Danke im voraus.

    Lg
    Thomas

  • Tesseract 4.00 mit gewünschtem Sprachpaket installieren, neueste Version von Gimagereader aufspielen. Im Interface im Drop-Down-Menu "OCR mode" Plain text auswählen und in das "Sources"-Feld die gewünschte PDF-Datei ziehen. Wenn man dann auf den Knopf (Recognize...etc) drückt, öffent sich darunter ein Drop-Down-Menu in dem man das Feld "Multiple Pages" auswählen kann. Es öffnet sich darauf ein Dialogfenster, das fragt, welche Seiten erkannt werden sollen, auf welche Art und ob Quellordner und Namen vorangestellt werden sollen. Mit OK bestätigen und dann geht`s los.


    Nach Standardwert "Entire Page". liest er einfach die ganze Seite von links oben nach rechts unten runter. Ich wäre allerdings nicht so guter Dinge, dass das Ergebniss gleich beim ersten Mal verblüffend sein wird. Die Spaltenerkennung funktioniert immer noch nicht so super und immer wieder glypht der Ausgabetext einer Seite zum Ende aus, obwohl eine gleichmäßige Aufnahmequalität vorliegt. Das habe ich bei der scheibchenhaften Texterkennung seltener in dieser krassen Form (ist natürlich auch mühseliger). Mit AutoDetect kann man es zwar mal versuchen, aber, wie auch beim Text, gibt es hier schnell Probleme, etwa wenn Überschriften kommen oder Spalten nicht proportional über die Seite verteilt sind. Ach, und das Verfahren dauert eine Weile. Bei mir waren es jetzt testweise 4 :37 für 41 Seiten Fraktur.