OCR Frakturerkennung

  • Guten Abend!


    Hat jemand Erfahrungen mit OCR Frakturerkennungs-Programmen? Es soll ja mittlerweile sogar schon Freeware-Programme geben (u. a. NAPS2, Tesseract OCR/gImage Reader). Können diese empfohlen werden?


    Vielen Dank im Voraus

  • Ich arbeite mit FreeOCR Version 5.4.1 und habe damit gute Erfahrungen, allerdings gilt auch hier: Je besser die

    Vorlage, desto besser die Erkennung. Mit der Unterscheidung von lang-s und f dürften alle OCR-Programme

    Schwierigkeiten haben.

    Standardfehler beseitige ich über die Suchen-Ersetzen-Funktion, z.b. ii zu ü.

    FreeOCR nutzt die Texterkennung von Tesseract.


    Teo

  • OCR und Frakturist eine schwierige Sache, da die allermeisten für Privatnutzer vorgesehenen OCR-Programme auf das Erkennen von Antiquaschriftzen ausgelegt sind, und die erkannten Formen dann eben anhand eines Antiqua-Skeletts zu erkennen suchen. Daher wird ein Fraktur-A eben immer erst einmal zum U, oder ein V zum B.


    Richtig auf die Erkennung von Frakturschriften ausgelegt gibt es nur eines, und hier wird dieses Monopol auch leidlich ausgenutzt:

    http://www.frakturschrift.com/de:pricing. Es ist also nicht wie üblioch ein Programm, das man auf seinenm Rechner installiert, und dann für beliebig viele Aufgaben nutzen kann, sondern diwe Lizenzen sind von der Seitenzahl abhängig.

  • Hallo Siegmarer,


    meines Erachtens bezieht sich der von Dir genannte Preis auf normale - nicht Fraktur -OCR-Erkennung, die die neueste Version von Finereader (Finereader 14) gerade nicht leistet, was ich im übrigen selbst ausprobiert habe.

    Frakturerkennung geht nur mit dem Abby Recognition Server. Das kostet z.B. für 2500 Seiten 149 Euro, siehe: http://www.frakturschrift.com/de:pricing.




  • Tatsächlich. Das ist ja eine tolle Nachricht. Man kann also über den englischsprachigen Zugang doppelt so günstig eine Fine-Reader- Frakturerkennung machen wie über das deutschsprachige Angebot. Ich werde es baldmöglichst ausprobieren und möglichst einen

    Ergebnisvergleich mit der kostenlosen Texterkennung FreeCOR machen.


    Teo

  • Leider wurde das Geschäftsmodell umgestellt, sodas man ein Jahreskontingent von 5.000 Seiten zu 129 EUR kaufen muss!

  • Ich verarbeite alte, wissenschaftliche Bücher ca. ab 1750, welche meist in einer Mischung von Fraktur als Hauptschrift, Schwabacher, Antiqua und Kursive vorkommen. Mit Tesseract funktioniert das recht gut, weil die Fraktur einer Breitkopf sehr ähnlich ist und die Schwabacher der Alten Schwabacher. Die Erkennungsrate bei Zeichen liegt ca. bei 97 Prozent, was wegen der durchschnittlichen Wortlänge von 7 Zeichen pro Wort dann nur mehr eine Genauigkeit von 90 Prozent auf Wortebene bedeutet. "Wort" ist hier ein Token, also die kleinste syntaktische Einheit wie echte Wörter, Zahlen, Abkürzungen, Satzzeichen (inkl. Zwischenraum) und Symbole.

    Moderne Texte z. B. aus 1970 in englischer Sprache und serifenlosen Schrift (Helvetica?) erkennt Tesseract 99% der Zeichen, 97% der Wörter, und im Vergleich dazu (selber Text) ABBY 96% bzw. 92%. Probleme mit wissenschaftlichen Symbolen, Ziffern und Satzzeichen haben beide.

  • Ich arbeite mit FreeOCR, Ein Programm das auf Tesseract zurückgreift. Da ich vor wenigen Tagen einen Frakturtext "Die Wanderungen des Herrn Frankly" hier als pdf-Datei eingestellt habe, bin ich auf die Idee gekommen, diese Datei durch FreeOCR erkennen zu lassen. Immerhin handelt es sich um eine fehlerfreie Widergabe der einzelnen Buchstaben, anders als bei alten eingescannten Frakturtexten. Der erkannte Text ist als Anhang beigefügt.

    Ergebnis: Es werden nicht alle Buchstaben fehlerfrei erkannt, insbesondere bei dem bekannten Problem der Unterscheidung von lang-s und f.

    So lauten die ersten beiden Sätze des erkannten Textes:

    "Wie fchnell, meine Seele, ist der Uebergang aus dieser Welt in die nächste! — Warum ängstigen sich denn also die Sterblichen fo lächerlich über die Kleinigkeiten des Lebens? — Welche Thorheit fchrie ich, indem ich aufstund, und das Feuer im Kamine aufstörte! Jch fetzte mich wieder nieder."

    Immerhin: In der Vorlage sind lang-s und f deutlich zu unterscheiden. Das sieht das Programm nicht. Nicht verwundert dagegen, daß zwischen dem großen "I" und J" nicht unterschieden werden kann.

    Abgesehen davon ist die Erkennung bis auf ganz wenige Fehler einwandfrei. Bei dem Wort Eollaboratorstellen ist das anfängliche C nicht richtig erkannt, die Lady wird zur Ladh und aus wünscht wird wÜnscht. Sicher habe ich noch ein paar kleine Fehler übersehen aber das Fazit ist: Bei guter Vorlage ist die Erkennungsrate weitgehend in Ordnung mit Ausnahme der lang-s/f-Problematik.

    Es wäre schön, von anderen Teilnehmern über weitere Erfahrungen zum Thema "OCR Frakturerkennung" zu erfahren

  • Habe ich verucht, mit diesem schlechten Ergebnis:

    III Verwaltungsbezirk der An1tshauptmannsrk)aft Chemnttz

    ,«,5tt)nl’e: Einsache Volksschule. Varsitzender des Schnlvorstandes: Gemeill"de-

    Vorstand Schn1alfuß. Leitender Lehrer: Oberlehrer Hunger.

    Hiande:"-atnk: R-attluff. Standes-beal11ter: Genleindevorstand Schmalf1!s3.

    ;;Jtrieden5rict)ier: Vollbrecht Uhlich, Rabenstein 134B. C)rt.-:-richtet: Inn-l

    Kupfer, 12F.

    Genteindewaisenrai: Gemeindevorstand Schinalfuß.

    Gendaruceriestation-: Schönau.

    «g3ebaucme: Amalie nhl. Reichel, Rottluff, Li1nbacher Str. 7.

    ,;Leitt)enfran: Marthe! vhl. ,8schache, Rabenstein, Röhrsdorfel: Str. 4.

    ««;Iikeifct)befchauer und Fria,'Iinenschauer: Eint! Fischer, 12D.

    ·Hcl)ornsteinfeger: Heidenrejch, ClJemnitz.

    «.F1irchk. Draußen- und g,s1rmeltpfl’ege: Gemein«oediakonie des Hausväter-

    verbandes der ParochieRabenstein mit Rottluff, Schwester MarieFischer.

    FnlIerkukose-Jiirsargestelke: Gesundheitsau«3schuß. Vorsitzender:Gelneinde-

    Vorstand Schmalfusz.

    Hångking.·3ftirsargeltelke mit Zt’cuiierlieratung:«-stelle: Für.-sorgestelIe des

    Haneväterverbandes der Parochie Rabenstein mit R-Ittluff.

    Etk:«itm5fchnH für Zugendpj1«ege: Vorsitzender Rudolf Nackte, 15D. ·

    3keuerweI)ren: Vranddirektor und, Komn1andantder Pflicht- und FreinJtlIcgen

    Feuerroehr: Max SchrapZ, LimbacI)er Satt. 20.

    3rauetwerein:i V-orsitzende:« Fraun Oberlehrer F-ritzsche, Limbacher Str. 46c.

    HitaI3enl3ekeuchkung und ekekir. straft: Vom Oberlungroitzer Elektrizitäts1verk.

    Volks«-biick)etei: Schnl- und Volk-Zbttcherei. Vorsitzender: GenleindevorftAIIV

    Schmalfnß. Bticherwart: Oberlehrer Hunger.


    Meine Erklärung dafür: Die Schrift sieht auf den ersten Blick sehr klar aus, ist es aber im Unterschied zu dem mit Ligafaktur erzeugten Text in der pdf-Datei nicht, wie man in 400% Vergrößerung überdeutlich sieht.

  • Ich weiß die Vorlage war eine sw-Kopie mit grauem Hintergrund welche ich bearbeitet habe.

    Das hat mir Abby ausgeworfen, da kommt leider an die Qualität nichts ran:

    410


    Neustadt


    Reißmann, Emil Rich., Postassistent 1k —, Mich., Werkzeugschlosser 28k Reinhold, Karl Herm., Invalid 6e Richter, Oskar Emil, Strumpfw. 4t —, Barbara, Formerin 13k — Theod. Fritz, Former 14 —, Marie, Auguste verw. 17e —, F. Albin, Klempner 43§

    Rieger, Josef, Handarbeiter 46 Riedel, Nob. Rich., Nadspmrner 1k —, Anna Emilie, Wirtschafterin 16k —, Max Waldemar, Strumpfw. 6 —, Paul Edmund, Nundstuhlarb. 6c Rosenthal, Martha Emmy verw. 96 Roscher, Max Herrn., Nadelmach. 1k Nother, M. Arthur, Packer 35c —, Rich. Franz, Kaufmann 1s Röder, Emil Fr., Schlosser 35k Römer, Robert, Kaufmann 9 —, Joh. Rob-, Ratsschreiber 9 Rößler, Otto Karl, Strumpfw. 13k —, Jul. Theod., Strumpfw. 13k —, Helene Marie verw. 43c Rupf, Herm. Curt, Fabrikarb. 24e —, Franz Bruno, Bierschröter 8K —, Selma Marie verw. 13k Rüdiger, Frdr. Emil, Schleifer 286 Rudolph, Bruno H.. Fabrikarb. 17k —, Frdr. Max, Fabrikarb. 4c Reh, M. Arno, Hausmann 1k G

    Sachse, Oskar Hugo, Färber 13 Säuberlich, Karl M., Strumpfw. 38k Sättler, Nob. Adolf, Handarb. 16k Scadock, Max, Fabrikant 1k Schaarschmidt, Emil Mich., Geschirrs. 1 Schaale, Karl Ernst, Bäckermstr. 13 Schade, Alb. Georg. Schlosser 136 Schaub, Heinr. Peter, Kaufm. 36c Schcrzer, Karl Gotth., Baumstr. 14c —» Paul Albin, Baumeister 146 Schettler, Joh. Clara vern. 9c Schettler, Paula Clara verw. 36c Schellenberger, N. Fritz, Heizungstechniker 43c

    Schierl, Franz, Bäcker u. Cond. 1k Schiefer, Jul. Theod., Strumpfw. 14c —, Iba, F. verw. 43k


    Schiffmann, Robert, Fabrikant 5K Schlegel, Ad. Emil, Strumpfw. 24k —, Herm. Richard, Strumpfw. 23 —, M. Kurt, Totenbettmstr. 33 Schlichtiug. Frieda Elsa verw. 9s Schlipf, Joh. Christ. VW., Milchh. 36 Schnöbt, Gust. Bald., Klempner 4K Schmutzler, Aug. Emilie verw. 5c Schneider, Herm. Rich., Maler 25 —. Gust. C., Fahrradhdlr. 6b Schott, Paul Herm., Gem.-Beamt. H —, Friedr. Herm., Fabrikarb. H Schöne, Gust. Ed., Sattlermstr. 13k Schönkuecht, Ernst Heinr., Maurer 6K Schönherr, Alw. Osw., Bäcker 14c Schürer, Emma verw. 28c Schramm, Fr. Alex., Kettenarb. 30 —, Frdr. Herm., Maschinenführ. 1c —. Anna Klara verw. 1e Schreiber, Franz Max, Schlosser 4c Schröter. Georg Mart., Fleischer 23k Schubert. Max B., Geschirrführ. 16k —, Emil Osw., Wirker 9c —. Oskar, Friseur 25 Schumarm, Friedrich Arthur Paul, Gemeinde-Beamter 36c Schulze, Paul Rich., Fräser 17 —, Jul. Paul, Werkführer 17 Schüler. Amalie Jda verw. 43 Schußler. Max Rudolf, Schlosser 12 Schwarzbold, Anna Bertha verw. 32 Schwenke, Rich. Hugo, Schutzm. 5k Seidel. Otto, Materialist 1e Seidel, Fürchteg. H., Zimmerm. 37 —, Ernst Hugo, Bürstenm. 9K —, Frieda M. VW., Geschäftsinh. 1k —, Amalie, Privatiere 1§

    —, Herm. Kurt, Klempner 37 —, Karl Oskar, Fräser 41 e Seifert, Franz Emil, Strumpfw. 35c Seiler, Ernst Kurt, Werkmeister 2 Seim, Albin E, Chauffeur 38

    Seylberg,Wilh.van der,Dekorateur 14s

    Siegel, Karl Gust., Händler 20 —, Paul Gust , Former 23k Siegert, Gust. Rob., Masch.-Schloff. 14 Simon, Ernst Heinr., Kaufm. 14c Speck, Max Oskar, Privatmann 23



    Neustadt


    411


    Starke, Karl Gust., Fabrikant 27 Stephan, Rich. Emil, Kutscher 16b Steinert, Nob. Ernil, Handarb. 36b Steinbacb, Bernh.Osw, Strnmpfw.lOc Fr. Linus, .Handelsmann 5k S!iegler,Fr. Will) ,Maschinistengeh.46 Stichler, Olga Martha verw. 14 Strauch, Hel. Anna, Arbeiterin 1 Stülpner, M. Alfred, Buchhalter 431c

    T

    Tandler, Anton, Rundstnhlarb. 56 Taubert, Emil Bruno, Schlosser 12 Anglist Friedr., Invalid 12 Teichmann, Walter, Eisendreher 31 Tetzner, Osk. Alverns, Strumpfw. 23 Teubel, I. Curt, Schlosser 16b —, Otto Rich., Glasschleifer 46 Thaut, Lina Thekla verw. 36b Thost, Emil Max, Nieter 13^ Thamm, Alma Marie, Arbeiterin 5s Thierfelder, Will). Theod., Handarb. 26 Töpfer, Marie Th. vw., Pensionär. 41 Tscherne, Lina Auguste verw. 4^ Turpe, Anna Marie, Formerin 32

    U

    Uhle, Gust. Nob., Strumpfw. 12c Emil Albert, Presser 23 ---, Max Emil, Fabrikarb. 37b Paul Rich., Strumpfw. 12c —, Paul Albert, Schlosser 1c —Nosalie Minna, Privatiere 4^ —, Alwine Juliane verw. 10b Uhlig, Agnes Marie, Fädlerin 17 —, Adolf Theod., Wirker 17k —, Hermann Karl, Strumpfw. 36 —, Max Linus, Strumpfwirker 11b Otto Rich., Drogenhändler 11b —, Hanna Christliebe verw. 36 —, Paul Max, Dreher 43b —, Kurt Alfred, Schutzmann 46 Uhlmann, Karl Heinr., Gärtner 41v —, Arthur, Korbwarenfabrikant 7b Uttger, Emil Gust., Materialist 13c —, Adolf Hans, Ingenieur 4k


    B

    Vetter, Franz Herrn., Geschirrs. 11 Viehwea,MaxOtto,Handlungsgeh.35 Vogt, Amalie Louise verw. 4§ Vogel, Jul. Herrn., Geschäftsf. 12c

    W

    Wade, Paul Nud., Drehermstr. 17k Wagner, Marie, Privatiere 4k Walther, O. Bruno, Lagerist 1c Wächtler, Paul A., Buchhalter 41e Weber, Karl Arno, Packer 23 —, Karl Friedr., Geschirrfährer 41c —, Karl Oskar, Schlosser 43k -, Ernst Adolf, Schlosser 8 Weder, O. Gerh.. Geschirrführ. 18 Weiß, Paul A., Schneidergeh. 14b Max Arno, Nadelrichter 6k —, Friedr. Oskar, Kutscher 3 —, Anna verw. 4ä

    Karl Otto, Baugesch.-Jnh. 4c -, Paul Emil, Maschinist 14c Werner, Gust. Emil, Stationsasstst. IO —>, Richard, Eisendreher 28cl Winkler, Emst R., Knstcher 25 —, Herrn. Edm., Schmied 176 —, Max Arthur, Schlosser 6b Karl Neiuh., Fabrikarb. 35 Wirth, Fritz Gustav, Tischlermstr. 11 Wolf, Leopold Arno, Steinmetz 13k Woite, Fritz Paul. Kaufmann 6 Wollin, F. Bertram, Fabrikarb. 22 Wöllner, Enril Arthur, Feuerm. 136 Wünsch, A. Aug. vw., Privatiere 24e

    Ä

    Zesch, Wilhelmine verw. 41b Zehmisch, Kurt. Einkäufer 41k Zimmermann, E. Ottomar, Kaufm. 8L Zöllner, Friedr. Hugo, Presser 23b Zwintscher, Bruno G., Kaufm. 43^

  • Das Ergebnis von Abbyy ist sensationell gut. wollmers empfindet die Tesseact-Frakturerkennung als recht gut, hat Abbyy und Tesseract aber wohl nur mit einem modernen englischen Text verglichen mit einem Vorteil für Tesseract. Das dürfte für Frakturschriften dann aber sehr deutlich anders sein, wie das von Sigmarer präsentierte Ergebnis zeigt.

    Ich überlege, ob ich mal 129 € ausgeben, denn jeden Monat 5 Seiten kostenlos ist schon recht wenig.

  • Hier noch das Ergebnis (nur die zweite Hälfte) von Freemail im Vergleich zu obigem Abbyy-ERgsbnis:

    Vetter, Franz Herrn, Geschirrf. 11

    Vieh1vcg,MaxOtto,s;)as1dl1111gsgeh.35

    Vogt, Amalie Louise verw. -12g

    Vogel, Jul. Hcrn1., Geschäftsf. 12(:

    W

    Wabe, Paul Rad» Drel)ermstr. 17f

    Wagner, Marter, Privatiere 4f

    Walthcr, O. Bruuo, Lagerist le

    Wächtler. Paul A., Vucl)halter 4le

    Weber, Karl Arno, Poeten 23

    -——, Karl Friedr., Geschirrs1"il)rer -Ue

    ·—, Karl OF-kar, Skl)losser 43f

    ——, Ernst Adolf, Schlosser 8

    Weder, O. Gern» Gescl)irrfülJr. 18

    Weiß, Paul A» Schneidergel). 14b

    ———, Max Arno, Nadelrichter 5i

    ——, F-riedr. Oszkar, Kutscher Z

    —. Anna verw. 4c1

    ——, Karl Otto, Bau esch.-Jnh. 4e

    —-—, Paul Emil, Ma2ck)irIist 14e

    Werner, Gast. Emil, Stationsassist. 1L

    ——, Richard, Eisendrel)er 28cI

    Winkler, Ernst R·, Kutscher 25

    -——, Herm. Edm., Schmied 17c1

    -——, Max Arthur, Scl)losser 5b

    -——, Karl Reiuh., Fabritarl). 35

    Wirth, Fritz Gustav, Tischlermstr. U

    Wolf, Leopold Arno, Steimnetz .1.3f

    Wolke, Fritz Paul, Kaufmann 6

    Wolliu, F. Berti-am, Fabrikarb. 22

    Wölluer, Emil Artl)ur, Feuerm. 13c1

    Wtinsch- A. Aug. vw., Privatiere 24c

    Zefch- Will)elmineZvern). 41b

    Zel)misch- Karl, Elnkäufer 41b

    Zimmermann, E. Ottomar, Kaufm. 8B

    Zöllner, Friedr. Hugo, Pressa: 23b

    Zwintscher, Vruno G» Kaufm. 43g

    -—, Adolf Hans, Jngenieur 4f