OCR Frakturerkennung

  • Am 2. Juli habe ich berichtet, dass entgegen der Werbung die Erkennung von Frakturschrift nicht in der neuen Version des Finereader enthalten ist. Das wurde mir auch von Abbyy so bestätigt.


    Ich habe heute von Abbyy die Nachricht erhalten, dass nunmehr die Erkennung von Frakturschrift in der neuen Version (Finereader 15) enthalten ist.


    Ich werde deshalb jetzt Abbyy Finereader kaufen und in Kürze über meine Erfahrungen berichten.

  • Es handelt(e) sich nur um eine Vermutung und den Hinweis auf die Testversion, um die Frage durch Ausprobieren zu klären. Da Wollmers sich besser auskennt, gehe ich davon aus, daß meine Vermutung nicht zutrifft.

  • Es handelt(e) sich nur um eine Vermutung und den Hinweis auf die Testversion, um die Frage durch Ausprobieren zu klären. Da Wollmers sich besser auskennt, gehe ich davon aus, daß meine Vermutung nicht zutrifft.

    Ich weiss es auch nicht. Ohne Ausprobieren wird man es nicht wissen. Steht halt nicht im gedankenlosen Marketingsprech der Beschreibung.

  • Ich habe mir inzwischen Finereader 15 besorgt.

    Die Texterkennung von Frakturtexten funktioniert.

    Ich werde mal einen Fraktur- Beispielstext mit einer Freeware und mit Finereader

    erkennen lassen und dann über das Ergebnis berichten.

  • Habe gerade geschaut ob es bezüglich Tesseract markante News für die Anwendung (bei Fraktur) gibt. Außer dass v5 in alpha ist, scheint es keine neue Software bzw. Updates bestehender zu geben. Werde eine intensivere Beschäftigung damit bezüglich Digitalisierung einiger historischer Bücher wohl weiter aufschieben.

  • Da ich gerade mal wieder etwas Altes selbst besser als vorhandene Niedrigauflösungs-OCR erzeugen möchte, habe ich mal wieder nachgeschaut. Tesseract wurde in Version 5.0.0 am 30. November 2021 veröffentlicht. Danach gab es bug fix release 5.0.1 und am 1. März 2022 Version 5.1.0:

    • Handle image and line regions in output formats ALTO, hOCR and text.
    • New parameter curl_timeout for curl_easy_setop.
    • Build fixes and improvements.
    • Catch nullptr in PageIterator::Orientation to improve robustness.
    • Remove unused code.

    Nun muss ich schauen welche Freeware vor allem laut Liste https://docs.google.com/spread…PuDBm37HSUdl00/edit#gid=0 mittlerweile Version 5 integriert bzw. benutzt, in der Hoffnung es gibt merkbare bzw. signifikante Verbesserungen zu Version 4. Werde einen neuen Tab in der Spreadsheet-Datei machen.

    Bin an Erfahrungsberichten interessiert. Habe auch den Thread Umwandeln ganzer PDF Dateien in Textfiles gefunden.


    EDIT:

    Habe schnell mal gImageReader_3.4.0_qt5 getestet und sowohl Oberfläche als auch Tesseract (5?) Ergebnisse wirken zumindest bei Antiqua-Buch-Smartphone-Snapshot recht gut. Sehr unterschiedlich schräge Zeilen (wegen Wölbung vor allem auf der linken Seite) werden allerdings trotz guter Scanqualität nicht erkannt. Fraktur muss ich noch testen.


    Bezüglich guter Methode alte oder große Bücher zu scannen ist ein A4-Scanner (im All-in-One Drucker vorhanden) meist nicht geeignet. Ich könnte in einer Bibliothek einen großen Profi-Aufsichtscanner mit Speicherung auf USB-Stick verwenden, aber die Software und Geschwindigkeit ist nicht mehr berauschend (schon eher in die Jahre gekommenes Modell). Deshalb überlege ich ein Setup mit meiner DSLR für daheim. Habe dazu gefunden: YT-Video Klaus Frankfurt und diybookscanner.org/forum . Kamera, Schnellauslöser, Standardstativ, 2x150 W Schirm-Lampen habe ich. Befestigung Kamera, Glas, usw. müsste ich schauen.

    4 Mal editiert, zuletzt von ChrisR ()

  • Ich verwende zu meiner Zufriedenheit bei der Texterkennung von Frakturschrift den Buchscanner Plustek opticBook 4800 und Abbyy Finereader 15.

  • Danke für den Hinweis. Habe mal die Daten des OpticBook 4800 angeschaut: CCD (besser als CIS wegen Tiefenschärfe), max A4/1200 dpi, Scangeschwindigkeit 300 dpi 3.6 Sekunden, USB 2.0, ca. 780 Euro. Leider für mich nicht interessant, da ich zu wenige Bücher im Jahr scanne. Außerdem haben manche Seiten größer als A4 und manche alte Bücher lassen sich schwer plan auf eine Auflage legen. Eine Geschwindigkeit von ca. 4 Sekunden pro Scanvorgang sollte der Profi-Aufsichtscanner in der Bibliothek auch erreichen. Eher die langsame und rudimentäre Software sind neben dem manuellen Seitenwechsel mit Anwendung einer Glasplatte zur Abflachung, der limitierende Faktor. Bei der Auflösung von DSLR oder auch Smartphones heute, sollte es eigentlich Software geben, die die Buch-Wölbung und damit ungerade Zeilenausrichtung gut korrigiert, um dann die OCR-Erkennung zu starten. Habe sowas noch nicht gefunden.

    Neben FineReader bin ich auch auf Adobe Acrobat Pro Paper Capture Plug-in gestossen, habe bisher aber keine Infos gefunden, ob die aktuelle Version Fraktur unterstützt. Nur ein Hinweis dass "dieser Font nicht gut unterstützt wird".

    Wäre sehr interessiert an einem aktuellen Vergleich der Erzeugungsqualität von Fraktur Ausgang zu hOCR-PDF (Originalscan mit Text im Hintergund) durch Tesseract 5 und FineReader 15 (laut Wikipedia ist 15.0.117.11843 vom März die letzte Version) oder anderer kommerzieller Software.

  • Hier meine Spontanantwort:

    Vor einiger Zeit habe ich beide Programme verglichen und habe keinen großen Unterschied in der Erkennung gefunden. Dabei habe ich als Freeware FreeOCR verwendet mit der noch nicht neuen Tesseract Grundlage.

    Für FineReader spricht:

    - man kann Erkennung trainieren, z.B. bei Frakturschrift "f" von Lang-s unterscheiden.

    - das Programm zeigt mögliche Fehler an, so dass man diese einfacher korrigieren kann

    - man kann zwischen mehreren Ausgabeformaten wählen, z. B. PDF/A, docx, odt, rtf, epub

  • Wir arbeiten seit Jahren mit den Kioskgeräten von Book2Net, - teuer wie ein Kleinwagen, aber schnell und zuverlässig, gerade für größere Datenmengen und durch die Buchwippe und den V-Modus bzw. das integrierte Programm zur Buchfalzoptimierung erhält man fast für alle Aufnahmen plane Scans ohne jedes Signalrauschen. Die lassen sich dann mit Adobe wunderbar optimieren. Wenn man nicht parallel ein integriertes ocr-Programm mitlaufen lässt, durch das die Auslagerungsdatei unsinnig groß wird (bei dem dort verwendeten Linux-System kanns dann dauern), bekommt man die meisten dreihundertseitigen Bücher in den meisten Formaten zwischen 15 und 20 Minuten vollständig gescannt. Mittlerweile dürfte doch jede größere Bibliothek so ein Ding schon haben. Gibt es auch im A4-Format für den kleinen Geldbeutel. Flachbettscanner machen aus konservatorischen Gründen bei alten Büchern keinen Sinn. Viel zu hell, viel zu lange Belichtungszeit, Wärmeentwicklung, die das Papier verformt,... allein schon wenn ich an die Tortur für den Rücken denke (und damit meine ich nicht den eigenen). Wer seine Bücher mag, tut denen das nicht an.

  • unpaperFür FineReader spricht:

    - man kann Erkennung trainieren, z.B. bei Frakturschrift "f" von Lang-s unterscheiden.

    - das Programm zeigt mögliche Fehler an, so dass man diese einfacher korrigieren kann

    - man kann zwischen mehreren Ausgabeformaten wählen, z. B. PDF/A, docx, odt, rtf, epub

    Danke für die Rückmeldung. Soweit ich bisher gImageReader_3.4.0_qt5 mit Abfotografie Antiqua testen konnte

    - ist die Korrektur möglicher Fehler im Fenster Ausgabe rechts besonders durch Anzeige der "Vertrauenswerte" umgesetzt

    - als Ausgabeformate sind möglich: Text, PDF (Option PoDoFo & QPrinter mit Steuerung Ausgabemodus, DPI, Schrift/Font, usw) , ODT

    - zum Erkennung trainieren habe ich nichts gefunden; es können nur die Tessdata-Sprachen installiert bzw. selektioniert werden u.a. Deutsch [deu] und Fraktur [Schrift]

    durch die Buchwippe und den V-Modus bzw. das integrierte Programm zur Buchfalzoptimierung erhält man fast für alle Aufnahmen plane Scans ohne jedes Signalrauschen. Die lassen sich dann mit Adobe wunderbar optimieren.

    Die Verwendung von abfotografierten Dateien (Smartphone, DSLR) machen der OCR durch perspektivische Verzerrung (Schräge Zeilen) und Wölbung tatsächlich die meisten Probleme. Ähnlich wie OCR sollte m.E. eine "intelligente Software" möglich sein, die die Verzerrung und Wölbung ev. auch assistiert bzw. mit Training rückgängig macht und gleichzeitig die Seiten bezüglich Kontrast, usw. optimal für OCR bzw. digitaler Archivierung vorbereitet. Da mittlerweile rein die Aufnahme-Qualität (Auflösung, Schärfe, usw.) auch bei Smartphones sehr gut sein kann, sollte dieser Anwendungsfall m.E. mehr Beachtung finden, da nicht immer ein Bibliotheks- oder Officesetup möglich ist.

    Adobe (ich denke Photoshop ist gemeint) hat womöglich integrierte Tools und Plugins die das leisten? Habe für Acrobat "Enhance document photos captured using a mobile camera" gefunden. Die Erzeugung des PDF (also OCR) auch über Acrobat ist da wohl der einzige sinnvolle Anwendungsfall, wo wir dann wieder bei Fraktur-Erkennungsrate sind.
    Es wäre interessant solche Features direkt in anderer OCR-Software integriert zu sehen, zumindest Kontrastanpassungen. Auch eigenständige Software die Batch-mäßig diese Bildoptimierungen vornehmen lässt ist interessant. Ich habe Faststone Image Viewer und XnConvert diesbezüglich eingesetzt (sind mehr für Foto allgemein gedacht), suche ev. nach Linux-Alternativen.


    EDIT: unpaper ist ein Linux-Script-Tool das

    "clean scanned images by removing dark edges, tries to detect misaligned centering and rotation of pages (deskewing)." Meine Hemmschwelle sich auf command-line tools einzulassen ist allerdings etwas hoch und das Tool scheint auf Scans aber nicht auf Kamera-Fotos ausgelegt zu sein.

    5 Mal editiert, zuletzt von ChrisR ()

  • Es scheint, zumindest für die Desktop-Anwendung mittlerweile Programme zu geben, die geräteunabhängig laufen. Eine Software die der EasyScan-Software von Book2Net sehr ähnlich ist, wäre Booksorber. Läuft auch mit linux, benötigt aber einen festen Rechner. Die meisten Programme, die das können, was hier verlangt ist, sind aber aus gutem Grund für eine bestimmte Hardware entwickelt (allein aufgrund von Firmware-Updates, man kann ja nicht bei jeder neuen Kamera auf dem Markt den ganzen Code erweitern, kann ja keiner bezahlen). Dass es da Software für Smartphones gibt, wäre naheliegend, aber mir bislang (noch) nicht bekannt. Adobe hat, m.M.n. selbst beim Abo-Paket eher defizitäre Programme für das Scannen oder Sonderfunktionen warten hinter weiteren Bezahlschranken. Auf jeden Fall würde ich nicht so viele unterschiedliche Programme für Bearbeitung, Scannen, OCR-Erkennung und Konvertierung nutzen. Im Endeffekt gibt es da nur wieder Kompatibilitätsprobleme und stressig und speicherintensiv ist es obendrein. Habe mal diese nicht mehr ganz so aktuelle GitHub-Seite gefunden. Vielleicht nützt die etwas? https://github.com/ad-si/awesome-scanning#apps

  • Bin mal wieder auf der Suche ob sich bei OCR bezüglich AI etwas tut und finde diese Liste interessant:
    https://www.softwaretestinghelp.com/ocr-software-for-pc/


    Kurzer Test mit 2 abfotografiertem Buchseiten (deutsch, Serif)

    https://ocr.space/ z.B. lässt eine Seite frei hochladen und in hOCR-PDF (Originalscan mit Text im Hintergund) herunterladen (mit Wasserzeichen), Leerzeichen scheinen nicht gut erkannt zu werden.

    https://lightpdf.com/ocr spätestens bei Download ist Registrierung nötig, hOCR-PDF möglich, kein Wasserzeichen, wirkt solide, Frei bis zu 30 Dateien/Monat-Upload

    https://app.nanonets.com/ erfordert Registrierung mit email Bestätigung, komplexe Handhabung bzw. Pro-Upgrades notwendig, war nicht imstand ein hOCR-PDF oder sonst Export zu machen. Die OCR bei Auswahl von einem Bereich, scheint aber sehr gut - am Besten von den drei, obwohl keine Sprache auszuwählen war


    Für ganze Bücher müsste man natürlich löhnen und Fraktur habe ich jetzt nicht getestet. Hat sich sonst jemand mit OCR AI beschäftigt? Ich denke wenn man Tesseract nimmt und AI-Konzepte anwendet, könnte da noch einiges Potential erschlossen werden, vor allem in der automatischen Vorbereitung vor dem OCR und dann in der intelligenten Zuweisung von Bereichen bzw. Typen von Inhalten und wohl auch noch in der Erkennungsrate besonders von verzerrten/gewölbten Textzeilen.

  • Ja es gibt Neuigkeiten. Für mich persönlich war es eine kleine Sensation , als ich entdeckte, dass ich mit der App vFlat kostenlos und in Superqualität - von einer koreanischen Software unerwartet - die Texterkennung von Frakturtexten durchführen kann.


    Als Beispiel habe ich eine Seite aus einem alten Meyers Konversations-Lexikon und das Ergebnis der Texterkennung mit vFlat angefügt.

    MKL 670 A.pdf

    Seite 670.txt

  • Ich habe gerade mal die letzte Beiträge erneut durchgelesen. Dazu eine Bemerkung zu dem Beitrag von Angemeldet vom 24.5.22: Ich verwende den Buchscanner Optic Book 4800 nur, wenn das Buch keinen Schaden erleidet. Zunächst muss das Buch nur zu 90° geöffnet werden. Weiter beträgt die Belichtungszeit bei einer etwa DIN A5 großen Buchseite ca. 3 Sekunden. Natürlich werden nur Einzelseiten gescannt, nicht etwa das Buch doppelseitig auf die Scanneroberfläche gepresst (wie ich es in der früheren Zeit von Studenten im Historischen Seminar gesehen habe). Und Bücher in einem Zustand, in dem sie durch den Scanvorgang geschädigt werden können, werden natürlich nicht eingescannt. Leider habe ich keinen Zugang zu einen Auflichtscanner. Für einen Tipp für einen bezahlbaren guten Auflichtscanner wäre ich dankbar.


    Ich bin ja gerade von der App vFlat so begeistert, weil man dort die Seiten schlichtweg abfotografieren kann und die Wellung der Buchseite durch die App korrigiert wird. Hinzu kommt dann noch die kostenfreie und sehr gute Texterkennung.

    Allerdings fehlt mir eine gute Beschreibung der Funktionen, ich kann den Texterkennungsvorgang jeweils für jede Einzelseite duchführen. Vielleicht gibt es dazu eine von mir noch nchht entdeckte Möglichkeit. Deshalb kopiere ich die so erfassten Seiten dann doch auf den PC und nutze dann Abbyy Finereader 16 zur Texterkennung.


    Ob diese neueste Abbyy-Version die Erkennung von Frakturschrift verbessert hat, kann ich nicht feststellen. Allerdings ist die Fehlerkorrektur deutlich einfacher als in der Vorversion.


    Da der letzte Beitrag von Sigmarer schon zweieinhalb Jahre zurückliegt, möchte ich ihn hiermit ermuntern, sich wieder oft an unseren Beiträgen zu beteiligen.

  • Also, wenn man sehr weit von der nächsten UB weg wohnt, dann lohnt sich natürlich eine Anbindung dort nicht, außer es sind wirklich große Mengen Schriftgut zu reproduzieren. Aber in der Regel sind Benutzerausweise oder Jahresmitgliedschaften dort für sehr moderate Gebühren zu erhalten. Ich weiß ja nicht, was bezahlbar für den Heimgebrauch sein soll (dreistellig? vierstellig?), aber weil sich eine Generation Buchscanner nach der nächsten auf den Markt drängt, gibt es mittlerweile schon ältere Modelle für den Bruchteil des Anschaffungspreises bei ebay Kleinanzeigen: https://www.ebay-kleinanzeigen…ertig/1834208155-226-1872. So ein Bruchteil ist natürlich relativ. Der Erdradius ist auch Bruchteil des Sonnenradius. Deswegen bin ich ihn trotzdem nicht mal schnell abgefahren.