Beiträge von Teo

    Wer viel Erfahrung mit Texterkennung mit Frakturschriften hat, den bitte ich, doch hier seine Erfahrungen etwas detaillierter mitzuteilen.


    Hier die meinigen:


    1. Schritt: Einscannen. Mit meinem schnellen Buchscanner brauche ich für 100 Seiten 16-20 Min (Mittelwert 18 min).

    Schneller würde es vielleicht gehen, wenn ich die Bücher zerhacke und mit einem schnellen Einzugsscanner verarbeite. Dies kommt bei mir bei alten Frakturtexten nicht in Betracht, zumal ich diese auch erst über Bibliotheken ausleihen muß.

    Das Einscannen entfällt, wenn man auf im Netz vorhandene Dateien zurückgreift, entweder die von Bibliotheken oder von google eingescannten Bücher. Da es etliche jüngere Literatur in Frakturschrift gibt, die zwar schon urheberrechtsfrei, aber noch nicht als Bild im Internet greifbar ist, bleibt nur das Einscannen.


    2. Schritt: Texterkennung: Mein Intel i5-Rechner der alten 4-er Serie braucht für die Erkennung einer großformatigen Seite 15 Sekunden, für eine DIN A5 oder DIN A 6-Seite 5-8 Sekunden. Das wären für 100 DIN A 4-Seiten 25 Minuten.


    3. Schritt: Fehlerkorrektur. Für die DIN-A4 Seite brauche ich 4-5 min, Mittelwert: 4.30, das macht bei 100 Seiten 7 1/2 Stunden!!!

    Bei DIN A 5 Format oder kleiner und größerem Zeilenabstand sicherlich wesentlich geringer.

    Das hört sich schlimmer an, als es ist, da ich die Texte ja auch gleichzeitig "als Leser" genieße.


    Gesamtzeit für 100 Seiten (DIN A 4-Seiten, zweispaltig, eng gesetzt) : gerundet 8 Stunden.

    (Das wären für 5000 Seiten 400 Stunden).


    Geschätzte Gesamtzeit für kleinere Bücher mit normalem Zeilenabstand pro 100 Seiten: Einscannen: 12 min, Texterkennung 12 min, Korrektur 2 Stunden, Gesamtzeit ca 2 1/2 Stunden. (Das wären für 5000 Seiten 125 Stunden).

    Bei Texten mit überwiegend neuerem Sprachschatz bin ich dazu übergegangen, diese mit einem Spracherkennungsprogramm einzulesen und abweichende Rechtschreibung sofort zu verändern (aus Tür wird Thür). Das erspart Einscannen und OCR, hilft aber nicht bei älteren Texten mit "altmodischen" Sprachschatz. Ich brauche also nur eine erweiterte Vorlesezeit.


    Meine Fragen:

    Wie beschleunigt man, sofern erforderlich, das Einscannen?
    Welche Hardware ist für schnelle Texterkennung zu empfehlen?

    Wie wird das Problem der Fehlerkorrrektur am günstigsten gelöst?


    Am Schluss dieses Beitrages noch eine überraschende Erkenntnis: Mein derzeitiger Text ist zweispaltig vorhanden. Dies bereitet FreeOCR kein Problem. Erstaunlicherweise (und für mich unerklärlich) treten aber deutlich weniger Fehler innerhalb des Textes auf, wenn ich die Spalten einzeln erkenne.

    Auch wenn es langsam zu viele Beiträge meinerseits zu diesem Thema sind: Dieses Ergebnis muß ich doch mitteilen:

    Die Erkennung von 4 großen Seiten aus der "Deutschen Roman-Zeitung" von 1904 - von mir selbst auf einem Flachbettscanner zuvor eingescannt - durch die Frakturerkennung von Abbyy ergab bei 19.616 Zeichen 26 Buchstabenfehler und 16 Zeichenfehler (zumeist Punkt statt Komma). Die 42 Fehler auf 19.616 Zeichen führen zu einer Erkennungsquote von nahezu 100%, genauer ca 99,98%.

    Nich ein einziger Fehler in der schwierigen f/lang-s Unterscheidung findt sich unter den Fehlern, auch nicht bei den soicherlich nicht im Abbyy-Wörterbuch enthaltenen Worten Nifterl und Freidhof.

    Die Vergleichsuntersuchung mit nur einer Seite des Textes ergab für das FreeOCR-Ergebnis auch ein 99% Ergebnis, in der Sache aber bei derselben Fehlerzahl auf einer Seite gegenüber derselben Fehlerzahl des Abby-Tests bei 4 Seiten, damit: beide gut, Abby bei diesem Versuch aber 4mal besser. Bei FreeOCR fiel die häufige Fehlerkennung bei n/u auf, bei Abbyy gab es keine Häufigkeit eines Fehlers, diese verteilten sich auf diverse bekannte Probleme wie i/l, c/e, l/t. Zudem hat Abbyy mehrfach Kommata, die in der Vorlage auch ohnehin kurz geraten sind, als Punkt erkannt. Rechnet man diese Fehler heraus und beschränkt sich auf falsche Buchstabenerkennung, ist das Ergebnis 99,864%, also 1,6 Fehler auf 1000 Buchstaben.


    Die Beurteilung von Sigmarer, das Abbyy-Programm führe zu recht zufriedenstellenden Ergebnissen, ist damit mehr als bestätigt.


    Ich füge einen kurzen Ausschnitt aus der erkannten Vorlage bei.

    Nachdem ich vor einiger Zeit kritisiert habe, daß in der Rubrik "Schreibschriften Kurrent" Texte eingestellt werden, die die Frakturschrift betreffen oder umgekehrt, stelle ich gerade fest, daß ich selbst gesündigt habe. Ich habe den Beitrag deshalb nochmal in die richtige Rubrik eingeordnet.

    Der Beitrag hinsichtlich der Umstellung auf Antiqua-Schrift für den Duden (siehe die Rubrik Kurrentschrift) und kann nicht etwa für alle Lexika u.ä gelten.


    Tatsächlich gibt es bedeutende Werke, die anscheinend unverändert in der Nachkriegszeit in Frakturschrift weitergeführt wurden.


    Es handelt sich dabei um grundlegende Werke in den dogmatischen Wissenschaften Theologie und Rechtswissenschaft.



    So erscheinen die vielen Kommentarbände der Serie "Das Neue Testament Deutsch" noch bis Ende der 60er Jähre in Frakturschrift. In meiner Bibliothek befindet sich ein Band aus dieser Reihe "Die Apostelgeschichte" in Fraktur noch aus dem Jahre 1968. Ein Beispielsbild ist in der Anlage beigefügt.


    Der umfangreichste Kommentar im Zivilrecht, der "Staudinger", wurde sogar bis in die 70er Jahre in Fraktur fortgeführt. Gegenwärtig wird auf ZVAB ein Band dieser Kommentierung in Frakturschrift aus dem Jahre 1975 angeboten.


    Ich gehe davon aus, daß nach der Umstellung auf Frakturschrift diese beiden Werke in der Kriegszeit überhaupt nicht neugedruckt worden sind, so daß in der Nachkriegszeit ohne Probleme die Werke in neuer Auflage wieder in Frakturschrift erscheinen konnten.

    Der obige Beitrag hinsichtlich der Umstellung auf Antiqua-Schrift betrifft nur den Duden und kann nicht etwa für alle Lexika u.ä gelten.

    Tatsächlich gibt es bedeutende Werke, die anscheinend unverändert in der Nachkriegszeit in Frakturschrift weitergeführt wurden.


    Es handelt sich dabei um grundlegende WErke in den dogmatischen Wissenschaften Theologie und Rechtswissenschaft.


    So erscheinen die vielen Kommentarbände der Serie "Das Neue Testament Deutsch" noch bis Ende der 60er Jähre in Frakturschrift. In meiner Bibliothek befindet sich ein Band aus dieser Reihe "Die Apostelgeschichte" in Fraktur noch aus dem Jahre 1968. Ein Beispielsbild ist in der Anlage beigefügt.


    Der umfangreichste Kommentar im Zivilrecht, der "Staudinger", wurde sogar bis in die 70er Jahre in Fraktur fortgeführt. Gegenwärtig wird auf ZVAB ein Band dieser Kommentierung in Frakturschrift aus dem Jahre 1975 angeboten.


    Ich gehe davon aus, daß nach der Umstellung auf Frakturschrift diese beiden Werke in der Kriegszeit überhaupt nicht neugedruckt worden sind, so daß in der Nachkriegszeit ohne Probleme die Werke in neuer Auflage wieder in Frakturschrift erscheinen konnten.

    Ich mache zwar seit alten Atarizeiten, damals mit Augur und Syntex, Erkennung von Frakturtexten, jetzt mit FreeOCR, habe aber keine besonderen Computer-Kenntnisse. Ich bin deshalb leider nicht in der Lage, den vorstehenden Ausführungen zu folgen. Wie -als Beispiel- kann man Zeilen umgruppieren ?


    Um für mich einen Vergleich zu erbringen, habe ich die Seite 19 aus den "Wanderungen des Herrn Frankly" dreifach erkannt:


    Eimmal mit FreeOCR ( dem wie gesagt Tesseract zugrundeliegt) die Seite als Schwarzweiß-Version. Das führte zu inakzeptablen Ergebnissen Hier der Beginn des erkannten Textes:


    DieGx5ße;«. sagte ich sey: wiss s-Im, spitzt eixi«so blykzmenreich.es KIND, als die. VOLK! -; VII G gIeich :t1;kch"t7ganz »so. leicht.

    M- - -BEp -«d0:1tt;. A·t1.bIkck2 Its MPO ks7nkgLk.chm"


    Ein weiteres Mal mit FreeOCR die Seite als Farbversion mit folgendem ERgebnis:


    - Die Größe- sagte ich «behT mir se-lbst, trägt ein so» blnhmenreiehes Kleid, als die Natur, ob es...gleich nicht- ganz so leicht ist. Bei) dem Anblicke des königlichen iPaaresszfühlte mein Herz ein .Entzück«en, das nur diejenigen kennen ," die ihren Ko?nig und ihr Vaterland so sehr lieben als ich. Die Stimme der Freude-, diedas Volk ausdrückte, als es seinen Monat« chen erblickte, theilte sich auch meinem Herzen mit. ,,Liebenswürdiges Paar, ,,rief ich aus, mächtest du so glücklich sehn, ,,als du es verdienst! Welch-ein reizendes ,,Behspiel giesst du deinen Unterthanen! ,,M·5chte doch die Sanftmnth, der feine ,,Verstand« und die ehrliche -Zärtlichkeit, ,,die deiner Chnriotte Seele bewohnen- ,,dir alle deine Kümmerniß erleichtern -—- ,,Eine Krone ist nur allzuoft mit Dornen ,,eingefaßt.«« —

    (Die mehrfachen Anführungszeichen beruhen auf der Vorlage, in dem jede Zeile mit einem solchen eingeleitet wird, siehe beigefügtes Bild. Sie fallen natürlich im erstellten Fließtext negativ auf).


    Und hier das Ergebnis mit Abbyy:


    Die Größe, sagte ich ich mir selbst,« trägt ein so bluhmenreiches Kleid, als die Vatur, ob es Lleich nicht ganz so leicht ist.. Bey dem Anblicke des königlichen. Paares fühlte mein Herz ein Entzücken,, das nur diejenigen kennen, die ihren KH nig und ihr Vaterland so sehr lieben als. ich. Die Stimme der Freude, die das Volk^ausdrückte, als eS seinen Monar-,, chen - erblickte, . Heilte sich auch meinem Herzen mit. , »Liebenswürdiges Paar, E H ^ «rief ich aus, möchtest du so glücklich seyn, G valsdues verdienst! Welch ein reizendes, »Beyft-iel giebst dn deinen Unterthanenk, »Möchte doch die Sanftmuts), der feine * ^Verstand, und die eheliche Zärtlichkeit,, ^die deiner Charlotte.Seele bewohne», »dir alle deine Kümmerniß erleichtern * * » »Eine Krone ist nur allzuoft mit Dornen »eingefaßt.«


    Abbyy hat mit ca 92% richtig erkannt, FreeOCR mit ca 91%. Ich hatte mir von Abbyy mehr versprochen.


    Eine bessere Quote bekomme ich, wenn ich den Text mit einem Spracherkennungsprogramm einlese und die Abweichungen von der heutigen Rechtschreibung per Hand korrigiere.


    Die zugrundegelegte Seite habe ich als Anhang beigefügt.


    Über weitere Tips und Tricks oder sonstige Hinweise zur Fraktur-OCR würde ich mich freuen.

    Und noch eine Bemerkung:

    Die vorstehende Erkennung beruht auf einer pdf-Datei. Die tif-Datei führt anscheinend zu einer leicht verbesserten
    Erkennung. Ein kurzer Auszug:


    Vetter, Franz Herrn» Geschirrf. 11

    Viehweg,MaxOtto,Handlungsgeh.Z5 (zum Vergleich: pdf-Erennung: Vieh1vcg,MaxOtto,s;)as1dl1111gsgeh.35)

    Vogt, Amalie Louise verw. 4g

    Vogel, Jul. Herkul» Geschäst-If. 12c

    W

    Wabe. Paul Rad» Drehermstr. 17f

    Wagner, Marter, Privatiere 4f

    Waltl)er, O. Brutto, Lagerist le

    Wächtler, Paul A» Vuchhalter 4le

    Weber, Karl Arno, Packer 23

    -——, Karl Friedr., Gescl)irrfül)rer 4le

    -———, Karl Oskar, Scl)losser 43f

    ——, Ernst Adolf, Schlosser 8

    Hier noch das Ergebnis (nur die zweite Hälfte) von Freemail im Vergleich zu obigem Abbyy-ERgsbnis:

    Vetter, Franz Herrn, Geschirrf. 11

    Vieh1vcg,MaxOtto,s;)as1dl1111gsgeh.35

    Vogt, Amalie Louise verw. -12g

    Vogel, Jul. Hcrn1., Geschäftsf. 12(:

    W

    Wabe, Paul Rad» Drel)ermstr. 17f

    Wagner, Marter, Privatiere 4f

    Walthcr, O. Bruuo, Lagerist le

    Wächtler. Paul A., Vucl)halter 4le

    Weber, Karl Arno, Poeten 23

    -——, Karl Friedr., Geschirrs1"il)rer -Ue

    ·—, Karl OF-kar, Skl)losser 43f

    ——, Ernst Adolf, Schlosser 8

    Weder, O. Gern» Gescl)irrfülJr. 18

    Weiß, Paul A» Schneidergel). 14b

    ———, Max Arno, Nadelrichter 5i

    ——, F-riedr. Oszkar, Kutscher Z

    —. Anna verw. 4c1

    ——, Karl Otto, Bau esch.-Jnh. 4e

    —-—, Paul Emil, Ma2ck)irIist 14e

    Werner, Gast. Emil, Stationsassist. 1L

    ——, Richard, Eisendrel)er 28cI

    Winkler, Ernst R·, Kutscher 25

    -——, Herm. Edm., Schmied 17c1

    -——, Max Arthur, Scl)losser 5b

    -——, Karl Reiuh., Fabritarl). 35

    Wirth, Fritz Gustav, Tischlermstr. U

    Wolf, Leopold Arno, Steimnetz .1.3f

    Wolke, Fritz Paul, Kaufmann 6

    Wolliu, F. Berti-am, Fabrikarb. 22

    Wölluer, Emil Artl)ur, Feuerm. 13c1

    Wtinsch- A. Aug. vw., Privatiere 24c

    Zefch- Will)elmineZvern). 41b

    Zel)misch- Karl, Elnkäufer 41b

    Zimmermann, E. Ottomar, Kaufm. 8B

    Zöllner, Friedr. Hugo, Pressa: 23b

    Zwintscher, Vruno G» Kaufm. 43g

    -—, Adolf Hans, Jngenieur 4f

    Das Ergebnis von Abbyy ist sensationell gut. wollmers empfindet die Tesseact-Frakturerkennung als recht gut, hat Abbyy und Tesseract aber wohl nur mit einem modernen englischen Text verglichen mit einem Vorteil für Tesseract. Das dürfte für Frakturschriften dann aber sehr deutlich anders sein, wie das von Sigmarer präsentierte Ergebnis zeigt.

    Ich überlege, ob ich mal 129 € ausgeben, denn jeden Monat 5 Seiten kostenlos ist schon recht wenig.

    Habe ich verucht, mit diesem schlechten Ergebnis:

    III Verwaltungsbezirk der An1tshauptmannsrk)aft Chemnttz

    ,«,5tt)nl’e: Einsache Volksschule. Varsitzender des Schnlvorstandes: Gemeill"de-

    Vorstand Schn1alfuß. Leitender Lehrer: Oberlehrer Hunger.

    Hiande:"-atnk: R-attluff. Standes-beal11ter: Genleindevorstand Schmalf1!s3.

    ;;Jtrieden5rict)ier: Vollbrecht Uhlich, Rabenstein 134B. C)rt.-:-richtet: Inn-l

    Kupfer, 12F.

    Genteindewaisenrai: Gemeindevorstand Schinalfuß.

    Gendaruceriestation-: Schönau.

    «g3ebaucme: Amalie nhl. Reichel, Rottluff, Li1nbacher Str. 7.

    ,;Leitt)enfran: Marthe! vhl. ,8schache, Rabenstein, Röhrsdorfel: Str. 4.

    ««;Iikeifct)befchauer und Fria,'Iinenschauer: Eint! Fischer, 12D.

    ·Hcl)ornsteinfeger: Heidenrejch, ClJemnitz.

    «.F1irchk. Draußen- und g,s1rmeltpfl’ege: Gemein«oediakonie des Hausväter-

    verbandes der ParochieRabenstein mit Rottluff, Schwester MarieFischer.

    FnlIerkukose-Jiirsargestelke: Gesundheitsau«3schuß. Vorsitzender:Gelneinde-

    Vorstand Schmalfusz.

    Hångking.·3ftirsargeltelke mit Zt’cuiierlieratung:«-stelle: Für.-sorgestelIe des

    Haneväterverbandes der Parochie Rabenstein mit R-Ittluff.

    Etk:«itm5fchnH für Zugendpj1«ege: Vorsitzender Rudolf Nackte, 15D. ·

    3keuerweI)ren: Vranddirektor und, Komn1andantder Pflicht- und FreinJtlIcgen

    Feuerroehr: Max SchrapZ, LimbacI)er Satt. 20.

    3rauetwerein:i V-orsitzende:« Fraun Oberlehrer F-ritzsche, Limbacher Str. 46c.

    HitaI3enl3ekeuchkung und ekekir. straft: Vom Oberlungroitzer Elektrizitäts1verk.

    Volks«-biick)etei: Schnl- und Volk-Zbttcherei. Vorsitzender: GenleindevorftAIIV

    Schmalfnß. Bticherwart: Oberlehrer Hunger.


    Meine Erklärung dafür: Die Schrift sieht auf den ersten Blick sehr klar aus, ist es aber im Unterschied zu dem mit Ligafaktur erzeugten Text in der pdf-Datei nicht, wie man in 400% Vergrößerung überdeutlich sieht.

    Ich arbeite mit FreeOCR, Ein Programm das auf Tesseract zurückgreift. Da ich vor wenigen Tagen einen Frakturtext "Die Wanderungen des Herrn Frankly" hier als pdf-Datei eingestellt habe, bin ich auf die Idee gekommen, diese Datei durch FreeOCR erkennen zu lassen. Immerhin handelt es sich um eine fehlerfreie Widergabe der einzelnen Buchstaben, anders als bei alten eingescannten Frakturtexten. Der erkannte Text ist als Anhang beigefügt.

    Ergebnis: Es werden nicht alle Buchstaben fehlerfrei erkannt, insbesondere bei dem bekannten Problem der Unterscheidung von lang-s und f.

    So lauten die ersten beiden Sätze des erkannten Textes:

    "Wie fchnell, meine Seele, ist der Uebergang aus dieser Welt in die nächste! — Warum ängstigen sich denn also die Sterblichen fo lächerlich über die Kleinigkeiten des Lebens? — Welche Thorheit fchrie ich, indem ich aufstund, und das Feuer im Kamine aufstörte! Jch fetzte mich wieder nieder."

    Immerhin: In der Vorlage sind lang-s und f deutlich zu unterscheiden. Das sieht das Programm nicht. Nicht verwundert dagegen, daß zwischen dem großen "I" und J" nicht unterschieden werden kann.

    Abgesehen davon ist die Erkennung bis auf ganz wenige Fehler einwandfrei. Bei dem Wort Eollaboratorstellen ist das anfängliche C nicht richtig erkannt, die Lady wird zur Ladh und aus wünscht wird wÜnscht. Sicher habe ich noch ein paar kleine Fehler übersehen aber das Fazit ist: Bei guter Vorlage ist die Erkennungsrate weitgehend in Ordnung mit Ausnahme der lang-s/f-Problematik.

    Es wäre schön, von anderen Teilnehmern über weitere Erfahrungen zum Thema "OCR Frakturerkennung" zu erfahren

    Und noch eine Idee: Könnte es sich bei dem GEbutstagsfest nicht um die Musik des Batallions handeln, abgekürzt Btl. (wobei hier allerdings der Querstrich des t fehlt. Und für den Namen des Unteroffiziers schlage ich Werny vor, ein lt. Telefonbuch nicht seltener Name.

    Der Anfangsbuchstabe des Hptm. "kanne" könnte auch ein großes P sein, dann hieße der Name Panne, vgl. im Text die Worte "Pionieren", "Päckchen" und "Pepi"

    Wieder mal ein kleiner Text in Fraktur von mir, wie immer mit Hilfe von Ligafaktur. Wer von Sätzen wie "Laß nicht noch eine Zähre die Quaal meines Herzens vermehren, das schon genug von Sorge und Mißvergnügen erfüllt ist" nicht abgeschreckt wird, kann ja mal einen Blick reinwerfen.

    Es handelt sich um ein 1772 veröffentlichtes Werk der englischen Autorin Elizabeth Bonhôte, das lt. Wikipedia ein moralistisches Werk ist, beeinflußt durch Laurence Sternes A Sentimental Journey through France and Italy (1768). Es wurde 1779 in die deutsche Sprache übersetzt und veröffentlicht.

    Es mag seltsam erscheinen, im Frakturschriftenforum gerade einen Artikel über den berühmten Antiqua-Schriftkünstler Bodoni aus dem 18. Jh einzustellen. Aber der wiedergegebene Artikel erschien 1823 in Frakturschrift, und die damals verwendeten Formulierungen der deutschen Sprache (z.B. " Alles ist bis in seine kleinsten Details mit einer Sorgfalt, Feinheit und einem Geschmacke gearbeitet, welche die gerechteste Anerkennung verdient"), der Namens-Dativ ("Baskerville'n") und heute kaum bekannte deutsche Begriffe ("Nebenstrich") machen die Lektüre für den Kenner sicher zu einem Vergnügen.

    Viel Freude daran wünscht

    Teo


    (Für den Hinweis auf eventuelle Fehler in der Wiedergabe des Artikels bin ich dankbar).

    Dateien

    • Bodoni.pdf

      (140,74 kB, 18 Mal heruntergeladen, zuletzt: )