OCR Frakturerkennung

  • Am 2. Juli habe ich berichtet, dass entgegen der Werbung die Erkennung von Frakturschrift nicht in der neuen Version des Finereader enthalten ist. Das wurde mir auch von Abbyy so bestätigt.


    Ich habe heute von Abbyy die Nachricht erhalten, dass nunmehr die Erkennung von Frakturschrift in der neuen Version (Finereader 15) enthalten ist.


    Ich werde deshalb jetzt Abbyy Finereader kaufen und in Kürze über meine Erfahrungen berichten.

  • Es handelt(e) sich nur um eine Vermutung und den Hinweis auf die Testversion, um die Frage durch Ausprobieren zu klären. Da Wollmers sich besser auskennt, gehe ich davon aus, daß meine Vermutung nicht zutrifft.

  • Es handelt(e) sich nur um eine Vermutung und den Hinweis auf die Testversion, um die Frage durch Ausprobieren zu klären. Da Wollmers sich besser auskennt, gehe ich davon aus, daß meine Vermutung nicht zutrifft.

    Ich weiss es auch nicht. Ohne Ausprobieren wird man es nicht wissen. Steht halt nicht im gedankenlosen Marketingsprech der Beschreibung.

  • Ich habe mir inzwischen Finereader 15 besorgt.

    Die Texterkennung von Frakturtexten funktioniert.

    Ich werde mal einen Fraktur- Beispielstext mit einer Freeware und mit Finereader

    erkennen lassen und dann über das Ergebnis berichten.

  • Habe gerade geschaut ob es bezüglich Tesseract markante News für die Anwendung (bei Fraktur) gibt. Außer dass v5 in alpha ist, scheint es keine neue Software bzw. Updates bestehender zu geben. Werde eine intensivere Beschäftigung damit bezüglich Digitalisierung einiger historischer Bücher wohl weiter aufschieben.

  • Da ich gerade mal wieder etwas Altes selbst besser als vorhandene Niedrigauflösungs-OCR erzeugen möchte, habe ich mal wieder nachgeschaut. Tesseract wurde in Version 5.0.0 am 30. November 2021 veröffentlicht. Danach gab es bug fix release 5.0.1 und am 1. März 2022 Version 5.1.0:

    • Handle image and line regions in output formats ALTO, hOCR and text.
    • New parameter curl_timeout for curl_easy_setop.
    • Build fixes and improvements.
    • Catch nullptr in PageIterator::Orientation to improve robustness.
    • Remove unused code.

    Nun muss ich schauen welche Freeware vor allem laut Liste https://docs.google.com/spread…PuDBm37HSUdl00/edit#gid=0 mittlerweile Version 5 integriert bzw. benutzt, in der Hoffnung es gibt merkbare bzw. signifikante Verbesserungen zu Version 4. Werde einen neuen Tab in der Spreadsheet-Datei machen.

    Bin an Erfahrungsberichten interessiert. Habe auch den Thread Umwandeln ganzer PDF Dateien in Textfiles gefunden.


    EDIT:

    Habe schnell mal gImageReader_3.4.0_qt5 getestet und sowohl Oberfläche als auch Tesseract (5?) Ergebnisse wirken zumindest bei Antiqua-Buch-Smartphone-Snapshot recht gut. Sehr unterschiedlich schräge Zeilen (wegen Wölbung vor allem auf der linken Seite) werden allerdings trotz guter Scanqualität nicht erkannt. Fraktur muss ich noch testen.


    Bezüglich guter Methode alte oder große Bücher zu scannen ist ein A4-Scanner (im All-in-One Drucker vorhanden) meist nicht geeignet. Ich könnte in einer Bibliothek einen großen Profi-Aufsichtscanner mit Speicherung auf USB-Stick verwenden, aber die Software und Geschwindigkeit ist nicht mehr berauschend (schon eher in die Jahre gekommenes Modell). Deshalb überlege ich ein Setup mit meiner DSLR für daheim. Habe dazu gefunden: YT-Video Klaus Frankfurt und diybookscanner.org/forum . Kamera, Schnellauslöser, Standardstativ, 2x150 W Schirm-Lampen habe ich. Befestigung Kamera, Glas, usw. müsste ich schauen.

    4 Mal editiert, zuletzt von ChrisR ()

  • Ich verwende zu meiner Zufriedenheit bei der Texterkennung von Frakturschrift den Buchscanner Plustek opticBook 4800 und Abbyy Finereader 15.

  • Danke für den Hinweis. Habe mal die Daten des OpticBook 4800 angeschaut: CCD (besser als CIS wegen Tiefenschärfe), max A4/1200 dpi, Scangeschwindigkeit 300 dpi 3.6 Sekunden, USB 2.0, ca. 780 Euro. Leider für mich nicht interessant, da ich zu wenige Bücher im Jahr scanne. Außerdem haben manche Seiten größer als A4 und manche alte Bücher lassen sich schwer plan auf eine Auflage legen. Eine Geschwindigkeit von ca. 4 Sekunden pro Scanvorgang sollte der Profi-Aufsichtscanner in der Bibliothek auch erreichen. Eher die langsame und rudimentäre Software sind neben dem manuellen Seitenwechsel mit Anwendung einer Glasplatte zur Abflachung, der limitierende Faktor. Bei der Auflösung von DSLR oder auch Smartphones heute, sollte es eigentlich Software geben, die die Buch-Wölbung und damit ungerade Zeilenausrichtung gut korrigiert, um dann die OCR-Erkennung zu starten. Habe sowas noch nicht gefunden.

    Neben FineReader bin ich auch auf Adobe Acrobat Pro Paper Capture Plug-in gestossen, habe bisher aber keine Infos gefunden, ob die aktuelle Version Fraktur unterstützt. Nur ein Hinweis dass "dieser Font nicht gut unterstützt wird".

    Wäre sehr interessiert an einem aktuellen Vergleich der Erzeugungsqualität von Fraktur Ausgang zu hOCR-PDF (Originalscan mit Text im Hintergund) durch Tesseract 5 und FineReader 15 (laut Wikipedia ist 15.0.117.11843 vom März die letzte Version) oder anderer kommerzieller Software.

  • Hier meine Spontanantwort:

    Vor einiger Zeit habe ich beide Programme verglichen und habe keinen großen Unterschied in der Erkennung gefunden. Dabei habe ich als Freeware FreeOCR verwendet mit der noch nicht neuen Tesseract Grundlage.

    Für FineReader spricht:

    - man kann Erkennung trainieren, z.B. bei Frakturschrift "f" von Lang-s unterscheiden.

    - das Programm zeigt mögliche Fehler an, so dass man diese einfacher korrigieren kann

    - man kann zwischen mehreren Ausgabeformaten wählen, z. B. PDF/A, docx, odt, rtf, epub

  • Wir arbeiten seit Jahren mit den Kioskgeräten von Book2Net, - teuer wie ein Kleinwagen, aber schnell und zuverlässig, gerade für größere Datenmengen und durch die Buchwippe und den V-Modus bzw. das integrierte Programm zur Buchfalzoptimierung erhält man fast für alle Aufnahmen plane Scans ohne jedes Signalrauschen. Die lassen sich dann mit Adobe wunderbar optimieren. Wenn man nicht parallel ein integriertes ocr-Programm mitlaufen lässt, durch das die Auslagerungsdatei unsinnig groß wird (bei dem dort verwendeten Linux-System kanns dann dauern), bekommt man die meisten dreihundertseitigen Bücher in den meisten Formaten zwischen 15 und 20 Minuten vollständig gescannt. Mittlerweile dürfte doch jede größere Bibliothek so ein Ding schon haben. Gibt es auch im A4-Format für den kleinen Geldbeutel. Flachbettscanner machen aus konservatorischen Gründen bei alten Büchern keinen Sinn. Viel zu hell, viel zu lange Belichtungszeit, Wärmeentwicklung, die das Papier verformt,... allein schon wenn ich an die Tortur für den Rücken denke (und damit meine ich nicht den eigenen). Wer seine Bücher mag, tut denen das nicht an.

  • unpaperFür FineReader spricht:

    - man kann Erkennung trainieren, z.B. bei Frakturschrift "f" von Lang-s unterscheiden.

    - das Programm zeigt mögliche Fehler an, so dass man diese einfacher korrigieren kann

    - man kann zwischen mehreren Ausgabeformaten wählen, z. B. PDF/A, docx, odt, rtf, epub

    Danke für die Rückmeldung. Soweit ich bisher gImageReader_3.4.0_qt5 mit Abfotografie Antiqua testen konnte

    - ist die Korrektur möglicher Fehler im Fenster Ausgabe rechts besonders durch Anzeige der "Vertrauenswerte" umgesetzt

    - als Ausgabeformate sind möglich: Text, PDF (Option PoDoFo & QPrinter mit Steuerung Ausgabemodus, DPI, Schrift/Font, usw) , ODT

    - zum Erkennung trainieren habe ich nichts gefunden; es können nur die Tessdata-Sprachen installiert bzw. selektioniert werden u.a. Deutsch [deu] und Fraktur [Schrift]

    durch die Buchwippe und den V-Modus bzw. das integrierte Programm zur Buchfalzoptimierung erhält man fast für alle Aufnahmen plane Scans ohne jedes Signalrauschen. Die lassen sich dann mit Adobe wunderbar optimieren.

    Die Verwendung von abfotografierten Dateien (Smartphone, DSLR) machen der OCR durch perspektivische Verzerrung (Schräge Zeilen) und Wölbung tatsächlich die meisten Probleme. Ähnlich wie OCR sollte m.E. eine "intelligente Software" möglich sein, die die Verzerrung und Wölbung ev. auch assistiert bzw. mit Training rückgängig macht und gleichzeitig die Seiten bezüglich Kontrast, usw. optimal für OCR bzw. digitaler Archivierung vorbereitet. Da mittlerweile rein die Aufnahme-Qualität (Auflösung, Schärfe, usw.) auch bei Smartphones sehr gut sein kann, sollte dieser Anwendungsfall m.E. mehr Beachtung finden, da nicht immer ein Bibliotheks- oder Officesetup möglich ist.

    Adobe (ich denke Photoshop ist gemeint) hat womöglich integrierte Tools und Plugins die das leisten? Habe für Acrobat "Enhance document photos captured using a mobile camera" gefunden. Die Erzeugung des PDF (also OCR) auch über Acrobat ist da wohl der einzige sinnvolle Anwendungsfall, wo wir dann wieder bei Fraktur-Erkennungsrate sind.
    Es wäre interessant solche Features direkt in anderer OCR-Software integriert zu sehen, zumindest Kontrastanpassungen. Auch eigenständige Software die Batch-mäßig diese Bildoptimierungen vornehmen lässt ist interessant. Ich habe Faststone Image Viewer und XnConvert diesbezüglich eingesetzt (sind mehr für Foto allgemein gedacht), suche ev. nach Linux-Alternativen.


    EDIT: unpaper ist ein Linux-Script-Tool das

    "clean scanned images by removing dark edges, tries to detect misaligned centering and rotation of pages (deskewing)." Meine Hemmschwelle sich auf command-line tools einzulassen ist allerdings etwas hoch und das Tool scheint auf Scans aber nicht auf Kamera-Fotos ausgelegt zu sein.

    5 Mal editiert, zuletzt von ChrisR ()

  • Es scheint, zumindest für die Desktop-Anwendung mittlerweile Programme zu geben, die geräteunabhängig laufen. Eine Software die der EasyScan-Software von Book2Net sehr ähnlich ist, wäre Booksorber. Läuft auch mit linux, benötigt aber einen festen Rechner. Die meisten Programme, die das können, was hier verlangt ist, sind aber aus gutem Grund für eine bestimmte Hardware entwickelt (allein aufgrund von Firmware-Updates, man kann ja nicht bei jeder neuen Kamera auf dem Markt den ganzen Code erweitern, kann ja keiner bezahlen). Dass es da Software für Smartphones gibt, wäre naheliegend, aber mir bislang (noch) nicht bekannt. Adobe hat, m.M.n. selbst beim Abo-Paket eher defizitäre Programme für das Scannen oder Sonderfunktionen warten hinter weiteren Bezahlschranken. Auf jeden Fall würde ich nicht so viele unterschiedliche Programme für Bearbeitung, Scannen, OCR-Erkennung und Konvertierung nutzen. Im Endeffekt gibt es da nur wieder Kompatibilitätsprobleme und stressig und speicherintensiv ist es obendrein. Habe mal diese nicht mehr ganz so aktuelle GitHub-Seite gefunden. Vielleicht nützt die etwas? https://github.com/ad-si/awesome-scanning#apps