Beiträge von Teo

    Abbyy Finereader 15 wirbt mit der Fähigkeit zur Erkennung von Frakturschrift.

    Da war wohl die Werbung der tatsächlichen Lage voraus, denn Abby Finereader 15 enthält

    zum gegenwärtigen Zeitpunkt keine Fähigkeit zur Erkennung von Frakturschrift.

    Vielleicht heißt es ja, wenn ich mich öffne, kommt vieles heraus, das besser drinbleiben sollte, so wie das Mehl im Sack bleibt, wenn man nicht mit der Klinge an den Mehlsack gehen würde - ich unterstütze also die Ansicht von Oliver.

    Ich würde mich freuen, wenn mir einer der hier schreibenden Experten mir sagen kann, welcher Unterschied zwischen den Tesseract-Sprachdateien def.traineddata und deu-frak.traineddata besteht. Ich habe beide Sprachdateien an verschiedenen Frakturtexten ausprobiert und binzu exakt denselben Ergebnissen gekommen. Handelt es sich nur um eine Umbenennung, um dann auch Spachdateien für nichtdeutsche Frakturtexte benennen zu können?.

    Des weiteren: deu-frak.traineddata kann von meinem Programm FreeOCR nicht geladen werden. Dies akzeptiert anscheinend nur drei Buchstaben vor dem Punkt (xxx.traineddata). ich habe die Datei schlichtweg umbenant in dfr.traineddata. So ließ sich die Datei laden.

    Aus meiner Warte handelt es sich um eine reine Antiquaschrift. Auch das verwendete lang-s macht es nicht zu einer Mischform. Das lang-s habe ich in Antiqua-Texten des 18. Jahrhunderts in englischer, französischer, italienischer und deutsche Sprache gefunden. Die Buchstaben sind zwar möglicherweise eine Eigenkreation - aber in Antiquaschrift.

    Die Bände der bibliophilen Buchreihe "Die andere Bibliothek" wurden bis 1996 noch in Bleisatz gedruckt. Kurz zuvor hatte ich noch die Druckerei besucht. Der Drucker zeigte mir seine Monotype und erzählte mir, dass es nur noch einen 80 jährigen Schweizer gebe, der in der Lage sei, beschädigte Matritzen zu reparieren oder neu herzustellen.

    Entscheidend ist also nicht, wie bereits in dem Beitrag von "Alter Fritz" ausgeführt, ob es genügend Bleilettern gab, sondern ob es dazu Matritzen gab. Auch diese können noch wieder hergestellt werden, wenn der zugehörige Stempel zur Verfügung stand.

    Das erklärt auch, daß es bis in die 70er Jahre, wie in meinem obigen Beitrag ausgeführt, noch juristische und theologische Kommentare gedruckt wurden, die sicher in jedem Pastorat/jeder Pfarrei bzw. jedem Gericht vorhanden waren.

    Wer viel Erfahrung mit Texterkennung mit Frakturschriften hat, den bitte ich, doch hier seine Erfahrungen etwas detaillierter mitzuteilen.


    Hier die meinigen:


    1. Schritt: Einscannen. Mit meinem schnellen Buchscanner brauche ich für 100 Seiten 16-20 Min (Mittelwert 18 min).

    Schneller würde es vielleicht gehen, wenn ich die Bücher zerhacke und mit einem schnellen Einzugsscanner verarbeite. Dies kommt bei mir bei alten Frakturtexten nicht in Betracht, zumal ich diese auch erst über Bibliotheken ausleihen muß.

    Das Einscannen entfällt, wenn man auf im Netz vorhandene Dateien zurückgreift, entweder die von Bibliotheken oder von google eingescannten Bücher. Da es etliche jüngere Literatur in Frakturschrift gibt, die zwar schon urheberrechtsfrei, aber noch nicht als Bild im Internet greifbar ist, bleibt nur das Einscannen.


    2. Schritt: Texterkennung: Mein Intel i5-Rechner der alten 4-er Serie braucht für die Erkennung einer großformatigen Seite 15 Sekunden, für eine DIN A5 oder DIN A 6-Seite 5-8 Sekunden. Das wären für 100 DIN A 4-Seiten 25 Minuten.


    3. Schritt: Fehlerkorrektur. Für die DIN-A4 Seite brauche ich 4-5 min, Mittelwert: 4.30, das macht bei 100 Seiten 7 1/2 Stunden!!!

    Bei DIN A 5 Format oder kleiner und größerem Zeilenabstand sicherlich wesentlich geringer.

    Das hört sich schlimmer an, als es ist, da ich die Texte ja auch gleichzeitig "als Leser" genieße.


    Gesamtzeit für 100 Seiten (DIN A 4-Seiten, zweispaltig, eng gesetzt) : gerundet 8 Stunden.

    (Das wären für 5000 Seiten 400 Stunden).


    Geschätzte Gesamtzeit für kleinere Bücher mit normalem Zeilenabstand pro 100 Seiten: Einscannen: 12 min, Texterkennung 12 min, Korrektur 2 Stunden, Gesamtzeit ca 2 1/2 Stunden. (Das wären für 5000 Seiten 125 Stunden).

    Bei Texten mit überwiegend neuerem Sprachschatz bin ich dazu übergegangen, diese mit einem Spracherkennungsprogramm einzulesen und abweichende Rechtschreibung sofort zu verändern (aus Tür wird Thür). Das erspart Einscannen und OCR, hilft aber nicht bei älteren Texten mit "altmodischen" Sprachschatz. Ich brauche also nur eine erweiterte Vorlesezeit.


    Meine Fragen:

    Wie beschleunigt man, sofern erforderlich, das Einscannen?
    Welche Hardware ist für schnelle Texterkennung zu empfehlen?

    Wie wird das Problem der Fehlerkorrrektur am günstigsten gelöst?


    Am Schluss dieses Beitrages noch eine überraschende Erkenntnis: Mein derzeitiger Text ist zweispaltig vorhanden. Dies bereitet FreeOCR kein Problem. Erstaunlicherweise (und für mich unerklärlich) treten aber deutlich weniger Fehler innerhalb des Textes auf, wenn ich die Spalten einzeln erkenne.

    Auch wenn es langsam zu viele Beiträge meinerseits zu diesem Thema sind: Dieses Ergebnis muß ich doch mitteilen:

    Die Erkennung von 4 großen Seiten aus der "Deutschen Roman-Zeitung" von 1904 - von mir selbst auf einem Flachbettscanner zuvor eingescannt - durch die Frakturerkennung von Abbyy ergab bei 19.616 Zeichen 26 Buchstabenfehler und 16 Zeichenfehler (zumeist Punkt statt Komma). Die 42 Fehler auf 19.616 Zeichen führen zu einer Erkennungsquote von nahezu 100%, genauer ca 99,98%.

    Nich ein einziger Fehler in der schwierigen f/lang-s Unterscheidung findt sich unter den Fehlern, auch nicht bei den soicherlich nicht im Abbyy-Wörterbuch enthaltenen Worten Nifterl und Freidhof.

    Die Vergleichsuntersuchung mit nur einer Seite des Textes ergab für das FreeOCR-Ergebnis auch ein 99% Ergebnis, in der Sache aber bei derselben Fehlerzahl auf einer Seite gegenüber derselben Fehlerzahl des Abby-Tests bei 4 Seiten, damit: beide gut, Abby bei diesem Versuch aber 4mal besser. Bei FreeOCR fiel die häufige Fehlerkennung bei n/u auf, bei Abbyy gab es keine Häufigkeit eines Fehlers, diese verteilten sich auf diverse bekannte Probleme wie i/l, c/e, l/t. Zudem hat Abbyy mehrfach Kommata, die in der Vorlage auch ohnehin kurz geraten sind, als Punkt erkannt. Rechnet man diese Fehler heraus und beschränkt sich auf falsche Buchstabenerkennung, ist das Ergebnis 99,864%, also 1,6 Fehler auf 1000 Buchstaben.


    Die Beurteilung von Sigmarer, das Abbyy-Programm führe zu recht zufriedenstellenden Ergebnissen, ist damit mehr als bestätigt.


    Ich füge einen kurzen Ausschnitt aus der erkannten Vorlage bei.

    Nachdem ich vor einiger Zeit kritisiert habe, daß in der Rubrik "Schreibschriften Kurrent" Texte eingestellt werden, die die Frakturschrift betreffen oder umgekehrt, stelle ich gerade fest, daß ich selbst gesündigt habe. Ich habe den Beitrag deshalb nochmal in die richtige Rubrik eingeordnet.

    Der Beitrag hinsichtlich der Umstellung auf Antiqua-Schrift für den Duden (siehe die Rubrik Kurrentschrift) und kann nicht etwa für alle Lexika u.ä gelten.


    Tatsächlich gibt es bedeutende Werke, die anscheinend unverändert in der Nachkriegszeit in Frakturschrift weitergeführt wurden.


    Es handelt sich dabei um grundlegende Werke in den dogmatischen Wissenschaften Theologie und Rechtswissenschaft.



    So erscheinen die vielen Kommentarbände der Serie "Das Neue Testament Deutsch" noch bis Ende der 60er Jähre in Frakturschrift. In meiner Bibliothek befindet sich ein Band aus dieser Reihe "Die Apostelgeschichte" in Fraktur noch aus dem Jahre 1968. Ein Beispielsbild ist in der Anlage beigefügt.


    Der umfangreichste Kommentar im Zivilrecht, der "Staudinger", wurde sogar bis in die 70er Jahre in Fraktur fortgeführt. Gegenwärtig wird auf ZVAB ein Band dieser Kommentierung in Frakturschrift aus dem Jahre 1975 angeboten.


    Ich gehe davon aus, daß nach der Umstellung auf Frakturschrift diese beiden Werke in der Kriegszeit überhaupt nicht neugedruckt worden sind, so daß in der Nachkriegszeit ohne Probleme die Werke in neuer Auflage wieder in Frakturschrift erscheinen konnten.

    Der obige Beitrag hinsichtlich der Umstellung auf Antiqua-Schrift betrifft nur den Duden und kann nicht etwa für alle Lexika u.ä gelten.

    Tatsächlich gibt es bedeutende Werke, die anscheinend unverändert in der Nachkriegszeit in Frakturschrift weitergeführt wurden.


    Es handelt sich dabei um grundlegende WErke in den dogmatischen Wissenschaften Theologie und Rechtswissenschaft.


    So erscheinen die vielen Kommentarbände der Serie "Das Neue Testament Deutsch" noch bis Ende der 60er Jähre in Frakturschrift. In meiner Bibliothek befindet sich ein Band aus dieser Reihe "Die Apostelgeschichte" in Fraktur noch aus dem Jahre 1968. Ein Beispielsbild ist in der Anlage beigefügt.


    Der umfangreichste Kommentar im Zivilrecht, der "Staudinger", wurde sogar bis in die 70er Jahre in Fraktur fortgeführt. Gegenwärtig wird auf ZVAB ein Band dieser Kommentierung in Frakturschrift aus dem Jahre 1975 angeboten.


    Ich gehe davon aus, daß nach der Umstellung auf Frakturschrift diese beiden Werke in der Kriegszeit überhaupt nicht neugedruckt worden sind, so daß in der Nachkriegszeit ohne Probleme die Werke in neuer Auflage wieder in Frakturschrift erscheinen konnten.

    Ich mache zwar seit alten Atarizeiten, damals mit Augur und Syntex, Erkennung von Frakturtexten, jetzt mit FreeOCR, habe aber keine besonderen Computer-Kenntnisse. Ich bin deshalb leider nicht in der Lage, den vorstehenden Ausführungen zu folgen. Wie -als Beispiel- kann man Zeilen umgruppieren ?


    Um für mich einen Vergleich zu erbringen, habe ich die Seite 19 aus den "Wanderungen des Herrn Frankly" dreifach erkannt:


    Eimmal mit FreeOCR ( dem wie gesagt Tesseract zugrundeliegt) die Seite als Schwarzweiß-Version. Das führte zu inakzeptablen Ergebnissen Hier der Beginn des erkannten Textes:


    DieGx5ße;«. sagte ich sey: wiss s-Im, spitzt eixi«so blykzmenreich.es KIND, als die. VOLK! -; VII G gIeich :t1;kch"t7ganz »so. leicht.

    M- - -BEp -«d0:1tt;. A·t1.bIkck2 Its MPO ks7nkgLk.chm"


    Ein weiteres Mal mit FreeOCR die Seite als Farbversion mit folgendem ERgebnis:


    - Die Größe- sagte ich «behT mir se-lbst, trägt ein so» blnhmenreiehes Kleid, als die Natur, ob es...gleich nicht- ganz so leicht ist. Bei) dem Anblicke des königlichen iPaaresszfühlte mein Herz ein .Entzück«en, das nur diejenigen kennen ," die ihren Ko?nig und ihr Vaterland so sehr lieben als ich. Die Stimme der Freude-, diedas Volk ausdrückte, als es seinen Monat« chen erblickte, theilte sich auch meinem Herzen mit. ,,Liebenswürdiges Paar, ,,rief ich aus, mächtest du so glücklich sehn, ,,als du es verdienst! Welch-ein reizendes ,,Behspiel giesst du deinen Unterthanen! ,,M·5chte doch die Sanftmnth, der feine ,,Verstand« und die ehrliche -Zärtlichkeit, ,,die deiner Chnriotte Seele bewohnen- ,,dir alle deine Kümmerniß erleichtern -—- ,,Eine Krone ist nur allzuoft mit Dornen ,,eingefaßt.«« —

    (Die mehrfachen Anführungszeichen beruhen auf der Vorlage, in dem jede Zeile mit einem solchen eingeleitet wird, siehe beigefügtes Bild. Sie fallen natürlich im erstellten Fließtext negativ auf).


    Und hier das Ergebnis mit Abbyy:


    Die Größe, sagte ich ich mir selbst,« trägt ein so bluhmenreiches Kleid, als die Vatur, ob es Lleich nicht ganz so leicht ist.. Bey dem Anblicke des königlichen. Paares fühlte mein Herz ein Entzücken,, das nur diejenigen kennen, die ihren KH nig und ihr Vaterland so sehr lieben als. ich. Die Stimme der Freude, die das Volk^ausdrückte, als eS seinen Monar-,, chen - erblickte, . Heilte sich auch meinem Herzen mit. , »Liebenswürdiges Paar, E H ^ «rief ich aus, möchtest du so glücklich seyn, G valsdues verdienst! Welch ein reizendes, »Beyft-iel giebst dn deinen Unterthanenk, »Möchte doch die Sanftmuts), der feine * ^Verstand, und die eheliche Zärtlichkeit,, ^die deiner Charlotte.Seele bewohne», »dir alle deine Kümmerniß erleichtern * * » »Eine Krone ist nur allzuoft mit Dornen »eingefaßt.«


    Abbyy hat mit ca 92% richtig erkannt, FreeOCR mit ca 91%. Ich hatte mir von Abbyy mehr versprochen.


    Eine bessere Quote bekomme ich, wenn ich den Text mit einem Spracherkennungsprogramm einlese und die Abweichungen von der heutigen Rechtschreibung per Hand korrigiere.


    Die zugrundegelegte Seite habe ich als Anhang beigefügt.


    Über weitere Tips und Tricks oder sonstige Hinweise zur Fraktur-OCR würde ich mich freuen.

    Und noch eine Bemerkung:

    Die vorstehende Erkennung beruht auf einer pdf-Datei. Die tif-Datei führt anscheinend zu einer leicht verbesserten
    Erkennung. Ein kurzer Auszug:


    Vetter, Franz Herrn» Geschirrf. 11

    Viehweg,MaxOtto,Handlungsgeh.Z5 (zum Vergleich: pdf-Erennung: Vieh1vcg,MaxOtto,s;)as1dl1111gsgeh.35)

    Vogt, Amalie Louise verw. 4g

    Vogel, Jul. Herkul» Geschäst-If. 12c

    W

    Wabe. Paul Rad» Drehermstr. 17f

    Wagner, Marter, Privatiere 4f

    Waltl)er, O. Brutto, Lagerist le

    Wächtler, Paul A» Vuchhalter 4le

    Weber, Karl Arno, Packer 23

    -——, Karl Friedr., Gescl)irrfül)rer 4le

    -———, Karl Oskar, Scl)losser 43f

    ——, Ernst Adolf, Schlosser 8