OCR Frakturerkennung

  • Und noch eine Bemerkung:

    Die vorstehende Erkennung beruht auf einer pdf-Datei. Die tif-Datei führt anscheinend zu einer leicht verbesserten
    Erkennung. Ein kurzer Auszug:


    Vetter, Franz Herrn» Geschirrf. 11

    Viehweg,MaxOtto,Handlungsgeh.Z5 (zum Vergleich: pdf-Erennung: Vieh1vcg,MaxOtto,s;)as1dl1111gsgeh.35)

    Vogt, Amalie Louise verw. 4g

    Vogel, Jul. Herkul» Geschäst-If. 12c

    W

    Wabe. Paul Rad» Drehermstr. 17f

    Wagner, Marter, Privatiere 4f

    Waltl)er, O. Brutto, Lagerist le

    Wächtler, Paul A» Vuchhalter 4le

    Weber, Karl Arno, Packer 23

    -——, Karl Friedr., Gescl)irrfül)rer 4le

    -———, Karl Oskar, Scl)losser 43f

    ——, Ernst Adolf, Schlosser 8

    Einmal editiert, zuletzt von Teo ()

  • Nur damit kein Missverständnis aufkommt: Ich verarbeite alte Bücher in Deutsch (meist Fraktur und Schwabacher), Englisch und Latein (manchmal abenteuerliche Kursivschriften). In modernen Schriften gedruckte Bücher können alle besseren OCR-Systeme gut erkennen.

    Jetzt habe ich mal die Ergebnisse der Beispiele hier ausgewertet. Bei der dunklen Kopie "Neustadt" musste ich beim ABBY-Ergebnis die Zeilenvorschübe korrigieren. Bei Tesseract musste ich die Zeilen auch umgruppieren, weil es die Spalten nicht richtig erkennt. Ebenso hab ich das lange S auf rundes S geändert, damit die Ergebnisse vergleichbar sind.

    Dann kommt bei "Neustadt" raus:


    jeweils Genauigkeit (f-Score) für Z(eilen), W(örter) und B(uchstaben):

    ABBY Z: 27,66% W: 80,18% B: 96,53% (53 Fehler von 1.444 Zeichen)
    Tess Z: 34,78 W: 78,91% B: 95,87 (79 Fehler)

    Für das nachbearbeitete Bild "Chemnitz":

    Tess Z: 34,66% W: 72,60% B: 95,34% (siehe Anhang)

    ABBY hat anscheinend Probleme, in Frakturtext bei Zahlen angehängte Buchstaben in einer Grotesk (serifenlos) zu erkennen. Bei Tesseract sind es die üblichen Probleme wie die typografischen Ligaturen ch, ck, tz etc. Ich habe übrigens mit tesseract direkt von der dunklen Kopie gearbeitet. Tesseract korrigiert die Bilder selbständig. Bei der Segmentierung (Spalten, Absätze) hat Tesseract manchmal Probleme.

    Kommt halt immer darauf an, was man will. Tesseract kann ich automatisch von einem PDF laufen lassen. Ich bekomme ein hOCR, welches automatisch korrigiert werden kann. Bei der PC-Version von ABBY (habe ich auch) kann man Fraktur vergessen. Bei modernen Texten funktioniert ABBY gut und man bekommt wahlweise ein HTML oder PDF, kann interaktiv korrigieren etc. Eine automatisch verarbeitbare Struktur in XML gibt es nur bei den Server-Versionen von ABBY.


    enge_fraktur.diff.txt

  • Ich mache zwar seit alten Atarizeiten, damals mit Augur und Syntex, Erkennung von Frakturtexten, jetzt mit FreeOCR, habe aber keine besonderen Computer-Kenntnisse. Ich bin deshalb leider nicht in der Lage, den vorstehenden Ausführungen zu folgen. Wie -als Beispiel- kann man Zeilen umgruppieren ?


    Um für mich einen Vergleich zu erbringen, habe ich die Seite 19 aus den "Wanderungen des Herrn Frankly" dreifach erkannt:


    Eimmal mit FreeOCR ( dem wie gesagt Tesseract zugrundeliegt) die Seite als Schwarzweiß-Version. Das führte zu inakzeptablen Ergebnissen Hier der Beginn des erkannten Textes:


    DieGx5ße;«. sagte ich sey: wiss s-Im, spitzt eixi«so blykzmenreich.es KIND, als die. VOLK! -; VII G gIeich :t1;kch"t7ganz »so. leicht.

    M- - -BEp -«d0:1tt;. A·t1.bIkck2 Its MPO ks7nkgLk.chm"


    Ein weiteres Mal mit FreeOCR die Seite als Farbversion mit folgendem ERgebnis:


    - Die Größe- sagte ich «behT mir se-lbst, trägt ein so» blnhmenreiehes Kleid, als die Natur, ob es...gleich nicht- ganz so leicht ist. Bei) dem Anblicke des königlichen iPaaresszfühlte mein Herz ein .Entzück«en, das nur diejenigen kennen ," die ihren Ko?nig und ihr Vaterland so sehr lieben als ich. Die Stimme der Freude-, diedas Volk ausdrückte, als es seinen Monat« chen erblickte, theilte sich auch meinem Herzen mit. ,,Liebenswürdiges Paar, ,,rief ich aus, mächtest du so glücklich sehn, ,,als du es verdienst! Welch-ein reizendes ,,Behspiel giesst du deinen Unterthanen! ,,M·5chte doch die Sanftmnth, der feine ,,Verstand« und die ehrliche -Zärtlichkeit, ,,die deiner Chnriotte Seele bewohnen- ,,dir alle deine Kümmerniß erleichtern -—- ,,Eine Krone ist nur allzuoft mit Dornen ,,eingefaßt.«« —

    (Die mehrfachen Anführungszeichen beruhen auf der Vorlage, in dem jede Zeile mit einem solchen eingeleitet wird, siehe beigefügtes Bild. Sie fallen natürlich im erstellten Fließtext negativ auf).


    Und hier das Ergebnis mit Abbyy:


    Die Größe, sagte ich ich mir selbst,« trägt ein so bluhmenreiches Kleid, als die Vatur, ob es Lleich nicht ganz so leicht ist.. Bey dem Anblicke des königlichen. Paares fühlte mein Herz ein Entzücken,, das nur diejenigen kennen, die ihren KH nig und ihr Vaterland so sehr lieben als. ich. Die Stimme der Freude, die das Volk^ausdrückte, als eS seinen Monar-,, chen - erblickte, . Heilte sich auch meinem Herzen mit. , »Liebenswürdiges Paar, E H ^ «rief ich aus, möchtest du so glücklich seyn, G valsdues verdienst! Welch ein reizendes, »Beyft-iel giebst dn deinen Unterthanenk, »Möchte doch die Sanftmuts), der feine * ^Verstand, und die eheliche Zärtlichkeit,, ^die deiner Charlotte.Seele bewohne», »dir alle deine Kümmerniß erleichtern * * » »Eine Krone ist nur allzuoft mit Dornen »eingefaßt.«


    Abbyy hat mit ca 92% richtig erkannt, FreeOCR mit ca 91%. Ich hatte mir von Abbyy mehr versprochen.


    Eine bessere Quote bekomme ich, wenn ich den Text mit einem Spracherkennungsprogramm einlese und die Abweichungen von der heutigen Rechtschreibung per Hand korrigiere.


    Die zugrundegelegte Seite habe ich als Anhang beigefügt.


    Über weitere Tips und Tricks oder sonstige Hinweise zur Fraktur-OCR würde ich mich freuen.

  • Auch wenn es langsam zu viele Beiträge meinerseits zu diesem Thema sind: Dieses Ergebnis muß ich doch mitteilen:

    Die Erkennung von 4 großen Seiten aus der "Deutschen Roman-Zeitung" von 1904 - von mir selbst auf einem Flachbettscanner zuvor eingescannt - durch die Frakturerkennung von Abbyy ergab bei 19.616 Zeichen 26 Buchstabenfehler und 16 Zeichenfehler (zumeist Punkt statt Komma). Die 42 Fehler auf 19.616 Zeichen führen zu einer Erkennungsquote von nahezu 100%, genauer ca 99,98%.

    Nich ein einziger Fehler in der schwierigen f/lang-s Unterscheidung findt sich unter den Fehlern, auch nicht bei den soicherlich nicht im Abbyy-Wörterbuch enthaltenen Worten Nifterl und Freidhof.

    Die Vergleichsuntersuchung mit nur einer Seite des Textes ergab für das FreeOCR-Ergebnis auch ein 99% Ergebnis, in der Sache aber bei derselben Fehlerzahl auf einer Seite gegenüber derselben Fehlerzahl des Abby-Tests bei 4 Seiten, damit: beide gut, Abby bei diesem Versuch aber 4mal besser. Bei FreeOCR fiel die häufige Fehlerkennung bei n/u auf, bei Abbyy gab es keine Häufigkeit eines Fehlers, diese verteilten sich auf diverse bekannte Probleme wie i/l, c/e, l/t. Zudem hat Abbyy mehrfach Kommata, die in der Vorlage auch ohnehin kurz geraten sind, als Punkt erkannt. Rechnet man diese Fehler heraus und beschränkt sich auf falsche Buchstabenerkennung, ist das Ergebnis 99,864%, also 1,6 Fehler auf 1000 Buchstaben.


    Die Beurteilung von Sigmarer, das Abbyy-Programm führe zu recht zufriedenstellenden Ergebnissen, ist damit mehr als bestätigt.


    Ich füge einen kurzen Ausschnitt aus der erkannten Vorlage bei.

    2 Mal editiert, zuletzt von Teo ()

  • Hallo Teo,


    danke für den Test bzw. die Weitergabe der Erfahrungen.

    ABBY scheint also mit Fraktur-Brotschriften, insbesondere relativ modernen (1904) und solide gedruckten, recht gut zu funktionieren.


    Bei meinem Projekt (ohne Einnahmen) mit 5.000 Seiten pro Tag ist ABBY finanziell und auch organisatorisch keine Option.

  • Wer viel Erfahrung mit Texterkennung mit Frakturschriften hat, den bitte ich, doch hier seine Erfahrungen etwas detaillierter mitzuteilen.


    Hier die meinigen:


    1. Schritt: Einscannen. Mit meinem schnellen Buchscanner brauche ich für 100 Seiten 16-20 Min (Mittelwert 18 min).

    Schneller würde es vielleicht gehen, wenn ich die Bücher zerhacke und mit einem schnellen Einzugsscanner verarbeite. Dies kommt bei mir bei alten Frakturtexten nicht in Betracht, zumal ich diese auch erst über Bibliotheken ausleihen muß.

    Das Einscannen entfällt, wenn man auf im Netz vorhandene Dateien zurückgreift, entweder die von Bibliotheken oder von google eingescannten Bücher. Da es etliche jüngere Literatur in Frakturschrift gibt, die zwar schon urheberrechtsfrei, aber noch nicht als Bild im Internet greifbar ist, bleibt nur das Einscannen.


    2. Schritt: Texterkennung: Mein Intel i5-Rechner der alten 4-er Serie braucht für die Erkennung einer großformatigen Seite 15 Sekunden, für eine DIN A5 oder DIN A 6-Seite 5-8 Sekunden. Das wären für 100 DIN A 4-Seiten 25 Minuten.


    3. Schritt: Fehlerkorrektur. Für die DIN-A4 Seite brauche ich 4-5 min, Mittelwert: 4.30, das macht bei 100 Seiten 7 1/2 Stunden!!!

    Bei DIN A 5 Format oder kleiner und größerem Zeilenabstand sicherlich wesentlich geringer.

    Das hört sich schlimmer an, als es ist, da ich die Texte ja auch gleichzeitig "als Leser" genieße.


    Gesamtzeit für 100 Seiten (DIN A 4-Seiten, zweispaltig, eng gesetzt) : gerundet 8 Stunden.

    (Das wären für 5000 Seiten 400 Stunden).


    Geschätzte Gesamtzeit für kleinere Bücher mit normalem Zeilenabstand pro 100 Seiten: Einscannen: 12 min, Texterkennung 12 min, Korrektur 2 Stunden, Gesamtzeit ca 2 1/2 Stunden. (Das wären für 5000 Seiten 125 Stunden).

    Bei Texten mit überwiegend neuerem Sprachschatz bin ich dazu übergegangen, diese mit einem Spracherkennungsprogramm einzulesen und abweichende Rechtschreibung sofort zu verändern (aus Tür wird Thür). Das erspart Einscannen und OCR, hilft aber nicht bei älteren Texten mit "altmodischen" Sprachschatz. Ich brauche also nur eine erweiterte Vorlesezeit.


    Meine Fragen:

    Wie beschleunigt man, sofern erforderlich, das Einscannen?
    Welche Hardware ist für schnelle Texterkennung zu empfehlen?

    Wie wird das Problem der Fehlerkorrrektur am günstigsten gelöst?


    Am Schluss dieses Beitrages noch eine überraschende Erkenntnis: Mein derzeitiger Text ist zweispaltig vorhanden. Dies bereitet FreeOCR kein Problem. Erstaunlicherweise (und für mich unerklärlich) treten aber deutlich weniger Fehler innerhalb des Textes auf, wenn ich die Spalten einzeln erkenne.

    Einmal editiert, zuletzt von Teo ()

  • Was ist ein "schneller Buchscanner"? Ich habe einen Flachbettscanner, den man auf Serie einstellen kann. Dann geht sich das aus, mit Deckel auf, umblättern, Deckel zu. Kommt dann drauf an, ob man eine Seite oder zwei auf einmal scannen kann. 10 Sekunden pro Seite kommt aber glaub ich hin.

    Dann habe ich einen Einzugsscanner, der Vorder- und Rückseite gleichzeitig scannen kann. Dazu muss man ein Buch zerlegen oder besser den Buchrücken professionell abschneiden lassen. Kostet ca. EUR 15,- pro Buch. Wenn man das Buch nicht zerschneiden will, gibt es immer noch die Möglichkeit eines antiquarisch um wenige Euro zu erstehen. Bei älteren Büchern ist die Chance gross, dass man bereits gescannte Exemplare kostenlos runterladen kann. Es gibt auf archive.org ca. 15 Millionen eingescannte Bücher, weltweit ca. 50 Millionen.

    Die Texterkennung auf einem i7 dauert mit Tesseract ca. 20 Sekunden pro Einzelseite. D. h. aus PDF den Scan extrahieren und Tesseract füttern. Dabei wird Tesseract jedesmal neu gestartet, macht automatische Bildkorrektur und danach Texterkennung. Das ganze PDF auf einmal mit Tesseract zu verarbeiten, ginge wesentlich schneller.

    Bei moderneren Texten nach ca. 1910 kann man für die Korrektur die üblichen Rechtschreibprüfungen verwenden. Für ältere Werke ca. 1780 ist die Rechtschreibung noch relativ instabil (seyn/sein; Thaal/Tal), ab 1830 in den südlichen Regionen stabiler als in Preussen, ab 1870 schon relativ einheitlich. Ich hab mir halt für die verschiedenen Epochen Wörterbücher erstellt, insgesamt ca. 2 Millionen deutsche Wörter und ca. 15 Millionen Namen. Die Programme für die Korrektur habe ich selber geschrieben und auch eines zur manuellen Nachkorrektur, wo der Unsicherheitsgrad aus den Vorschritten farblich angezeigt wird.