Beiträge von wollmers

    Cambria Math ist ein eigener Font, der mathematischen Fraktur-Zeichen enthält. Diese haben aber in Unicode eigene Kode-Punkte, sind für Mathematik vorgesehen und es fehlen auch einige Buchstaben wie CIRZ sowie ÄÖÜäöüß. Ebenso die dazu passenden Satzzeichen etc.


    Den ausser für mathematische Formeln zu nutzen ist nicht ratsam.

    Es handelt(e) sich nur um eine Vermutung und den Hinweis auf die Testversion, um die Frage durch Ausprobieren zu klären. Da Wollmers sich besser auskennt, gehe ich davon aus, daß meine Vermutung nicht zutrifft.

    Ich weiss es auch nicht. Ohne Ausprobieren wird man es nicht wissen. Steht halt nicht im gedankenlosen Marketingsprech der Beschreibung.

    Das lange S war weit verbreitet über alle Sprachen, noch bevor es Fraktur überhaupt gab.

    Genauso gab es andere Buchstabenformen, die ebenso wie das lange S der Rationalisierung und auch Lesbarkeit zum Opfer gefallen sind. Die grösste Schwäche des langen S sehe ich in der Verwechslungsgefahr mit f, besonders in der deutschen Sprache, und weiters in den komplizierten Rechtschreibregeln.

    Deutsche Bücher wurden bereits ab Beginn des 19. Jahrhunderts zunehmend in Antiqua und auch Grotesk gedruckt, zum Teil mit langem S, zum Teil ohne.

    Angemeldet Maschinenschriften sind auch nur Fonts. Die gab es übrigens auch in Fraktur und Schreibschriften für Schreibmaschinen, bzw. umgekehrt Schriften mit Schreibmaschinen-Character auch als Bleisatzlettern.

    Muss ich einmal ausprobieren. Ich habe eine eingescannte Registratur 1910-1960, mit verschiedenen Handschriften ausgefüllt und auch mit Schreibmaschine. Die teilweise unleserliche Kurrent kann ich nicht vollständig entziffern.

    Da kennt sich aber jemand mit dem Personalschlüssel an deutschen Bibliotheken und Archiven nicht aus.


    Was würde das denn minimal für ein System erfordern?

    Die Bibliotheken oder Archive haben halt ein paar Mitarbeiter für die IT, darunter ein paar Programmierer. Und vielleicht, wenn überhaupt, ein zwei spezialisierte OCR-Wissenschafter. Dann eventuell noch Digitalisierungs-Personal, aber z. B. die ONB in Wien und die Bayrische Staatsbibliothek lassen von Google scannen und digitalisieren.

    Wen Du das in einer Woche durchhaben willst, brauchst Du eine leistungsfähige CPU mit 4 Kernen und modernem Instruktionssatz (AVX). Das ist im leistbaren Bereich z. B. ein Intel Core i7. Der muss auch gut gekühlt sein und macht entsprechenden Lärm. Ein Laptop hält so eine Dauerlast nicht unbedingt aus. Da ist das Risiko sehr hoch, dass Lötstellen auf den Platinen Schaden erleiden. Diese eine Woche ist nur ein Lauf. Solche Läufe muss man mehrfach mit verbesserten Daten oder Einstellungen wiederholen, um die Ergebnisse zu optimieren.

    Also ich mache das nicht, obwohl ich in einem Rechenzentrum (Hetzner) zwei geeignete Systeme gemietet habe, die bei Schaden vom Vermieter ersetzt werden müssen. Ich werde lieber die fertigen Modelle von der UB-Mannhein (GT4HistOCR und ONB, beide in vielen Varianten) runterladen und durchprobieren. Der Mitarbeiter der UB-Mannheim ist recht aktiv (Dissertant?) und tut auch sehr viel, um die Qualität der Ausgangsdaten zu verbessern.

    Kommt drauf an, wie man Fraktur definiert, wieviele es davon gibt. Nimmt die Bedeutung des Wortes Fraktur als "gebrochen", dann umfasst das alle Schriften mit eckigem Character. Der englische Begriff Blackletter ist da praktischer. Ist z. B. die Bibel-Textura von Gutenberg eine Fraktur? Oder eine Schaftstiefel-Groteske?


    Rein pragmatisch für den Zweck von OCR sagt der Name garnichts. Relevant ist, ob die Formen unterschiedlich sind. Und das sind sie z. B. bei einer Breitkopf-Fraktur in den unterschiedlichen Schriftgrössen und für Titelseiten verwendeten schmalen oder engen Varianten. D. h. ein OCR-System erkennt die stärker verzierten Grossbuchstaben in den grösseren Schriftgraden sehr schlecht.


    Die "irrende" Entscheidung bei den grossen EU-Projekten ist m. M. n., ca. 300 Bücher aus 5 Jahrhunderten auszuwählen und damit ein OCR-System zu trainieren. So eine eierlegende Wollmilchsau wird halt nie perfekt funktionieren. Kann man mit einfacher Wahrscheinlichkeit abschätzen, das da bei grösseren Beständen Werke dabei sind, die eine eher ausgefallene Schrift verwenden, und die Erkennungsrate auf Buchstabenebene auf 85% runterfällt. Das sind dann auf Wortebene so ca. 50%. Die Erkennungsrate von Suchbegriffen (darum geht es den Bibliotheken primär), liegt dann bei 15-30%.

    Es geht auch überhaupt nicht um Umsetzung in "Antiqua", sondern in Unicode. Hat man einen Text mal in Unicode, dann kann man den in einem beliebigen der hundertausenden verfügbaren Fonts darstellen.

    Die Masterarbeit ist prinzipiell interessant, ist aber von den Werten her veraltet. Tesseract 5-alpha hat wesentlich bessere Werte.

    Zwischenzeitlich (nach Version 4) wurde der Autor von Ocropus ins Entwicklungsteam aufgenommen und auf neuronale Netze umgestellt.


    Die Trainingsdaten für deutsche historische Druckwerke aus den EU-finanzierten Projekten sind frei erhältlich: https://github.com/tesseract-ocr/tesstrain/wiki/GT4HistOCR. Dort gibt es auch Verweise auf fertig trainierte Modelle der UB-Mannheim zum Download. So ein Trainingslauf dauert 20 CPU-TAGE! Die Trainingsdaten sind auch nicht grad handlich (660.000 Dateien). Ebenso gibt es die der ONB https://github.com/tesseract-o…n/wiki/AustrianNewspapers.

    Ich habe Mac, gibts das/den „Tesseract„ auch dafür?

    Ja, ich entwickle auch auf einem Mac, derzeit MacOS 10.14.6 Mojave.

    Der einfachste Weg ist über Homebrew. Zuerst Homebrew installieren und dann mit Homebrew (Befehl brew auf der Kommandozeile) Tesseract. Dabei werden auch alle Abhängigkeiten installiert. Manchmal muss man für Sprachmodelle nachbessern.

    Weiss jetzt nicht, ob man Xcode und die Xcode command line tools for Homebrew installieren muss. Die brauche ich sowieso, um C/C++ zu kompilieren.

    Vermutlich gibt es einige GUI-Versionen für Linux oder Windows auch für Mac. Ich verwende es lieber von der Konsole bzw. selbst entwickelte Perl-Skripts, die mir das Rundherum auch gleich erledigen: Zerlegen und Umwandeln der PDFs, Anlage der Verzeichnisse, systematische Benennung bzw. Nummerierung der Dateien, Nachkorrektur und Qualitätsstatistiken. Erfahrungsgemäss schränken die GUI-Versionen ein und es ist auch nicht klar, was sie genau machen. GUI ist eher was für einzelne oder wenige Seiten.

    Es gibt irgendwo ein Video von einem Vortrag des Entwicklers von Tesseract, wo er seine Algorithmen erklärt. War für mich sehr aufschlussreich, weil mir da klar wurde, warum Tesseract bestimmte Schwächen und Fehlerhäufigkeiten hat. Meine Nachbearbeitung und automatische Korrektur beruht darauf, diesen Schwächen durch ein einfaches OCR mit orthogonalen, schnell adaptiven Methoden zu begegnen. Tesseract kann nur das (Fonts, Zeichen), worauf es trainiert wurde. Das ist ein gravierender Nachteil dieser Art von KI. Ein Mensch kann adaptieren und lernt während des Lesens schwierige Fonts wie Gutenbergs Textura, oder auch Schwabacher und es geht von Seite zu Seite immer schneller und besser.

    romulus Schöne Aufstellung von OCR-Software. Danke, ein paar kannte ich noch nicht.

    Das meiste sind wohl GUIs für Tesseract plus diverse Tools. Sonst gibt es zwar auch noch freie OCR-Systeme, die aber an Tesseract nicht herankommen. Relativ gut ist noch Cuneiform, kommt aber an seit Version 3 von Tesseract nicht mehr an dieses heran.

    Was Qualität und Auflösung betrifft, so ist es nunmal ein gewaltiger Unterschied, ob ein sauber gescanntes Buch in der Druckqualität von 1907 (schon Maschinensatz?, vorletzte Rechtschreibung) verarbeitet wird, oder ein Buch aus dem 17. Jahrhundert mit stockfleckigem Papier, schlechter Qualität von Papier, Lettern, Farbauftrag (damals händisch mit Tampons und nicht Walzen eingefärbt), händisch angerührter Farbe, abenteuerlichem Layout und heute unbekannten Schriften. Ich wandle die PDFs in Bilder mit Auflösung 600 um, was sicher einige Sekunden mehr CPU-Zeit pro Seite kostet. Müsste das einmal messen.

    Mein ältestes Rechtschreibbuch stammt aus dem Jahre 1642. Natürlich kenne ich das Ansinnen, alte Bücher komplett zu rekonstruieren. Dazu müsste man aber das Layout und die Fonts rekonstruieren. Dieses eine Rechtschreibbuch wurde mit geschätzt 20 verschiedenen Fonts (Fraktur, Schwabacher, Postillen-Schrift, jeweils nach Grösse verschieden geschnitten/verziert, Antiqua, italienische Kursiv, Griechisch, Hebräisch) gesetzt. Was bis zu einem gewissen Grad möglich ist, ist Fonts und deren Metriken in halbwegs brauchbarer Qualität automatisch zu rekonstruieren und damit den Text auf Webseiten wiederzugeben, für den Benutzer umschaltbar auf moderne Fonts. Für vernünftige Druckqualität in Antiqua kommen noch einige schwer zu überwindende Probleme dazu. Abgesehen vom Arbeitsaufwand für Korrektur und notwendigen manuellen Eingriffen in die Formatierung, weil moderne Schriften eben anders laufen. Da wird man insgesamt schon 1 Stunde pro Seite Arbeitszeit brauchen.


    Wenn es nur ein einziges Buch ist, wird das machbar sein. Meine Arbeitsschlange sind aber ca. 0,5 Millionen Bücher, was sich sowieso in meinem Restleben nicht mal zu einem kleinen Bruchteil ausgeht. 2 Server x 4 CPU-Kerne x 1 Seite/Minute x 60 min/h x 24 h/t = 11.520 Seiten/Tag, oder 23 500-seitige Bücher pro Tag, ~8.400 Bücher pro Jahr. 0,5 Millionen Bücher bräuchten also ca. 60 Jahre. Oder es sponsert jemand zusätzliche 20 Server (EUR 50/Monat x 20 = 1.000), dann geht das in 6 Jahren. In der Zeit wird sich aber auch die Anzahl der eingescannten Bücher vervielfachen. Hat sich im letzten Jahr ca. verdoppelt auf 40 Mio. frei verfügbare Bücher.

    ChrisR Mein Tesseract ist auch 5-alpha (auf einem Mac) und ich hab es für das Beispiel folgendermassen aufgerufen:

    Code
    tesseract kInteligenz.png kInteligenz -l frk hocr txt


    Ich verwende das Originalmodell von tess-data.

    romulus

    Wenn ich richtig gezählt, sind es deutlich weniger Fehler (Erkennungsrate 99,35%), was bei mir das kostenlose Tesseract liefert:


    Vorrede zur zweiten Ruflage.


    Mit vorliegender, nahezu um die Hälfte des Inhalts der erſten Aus-

    gabe bereicherten zweiten Auflage des „Deutſchen Wortſchaßes* erſcheint das

    zwölfte Tauſend dieſes Werkes. Ein erfreulicher Beweis, daß die mühſelige

    Arbeit des Verfaſſers keine vergebliche war, daß das Werk ſich Bahn ge-

    brochen und deſſen Verwendbarkeit Anklang bei dem Publikum gefunden hat.


    Wie natürlich, verdanke ich dieſen günſtigen und verhältnismäßig raſchen

    Erfolg, zum großen Teile der wohlwollenden Beurteilung, welche dem

    „Deutſchen Wortſchaß" ſeitens der Kritik allgemein entgegengebracht wurde.

    Indem ich hierfür meinen aufrichtigen Dank ausſpreche, glaube ich einige

    Worte der Erklärung beifügen zu ſollen, bezüglich der hier und dort aufge-

    tauchten Anſicht, daß behufs „Purifizierung“ der deutſchen Sprache die Fremd-

    wörter von der Aufnahme in dieſem Werke ausgeſchloſſen ſein ſollten.


    Es iſt eine auf Erfahrung beruhende, wohlbekannte Tatſache, daß die

    meiſten Menſchen gewöhnlich nur eine ſehr beſchränkte Anzahl Wörter be-

    nühen, um ihre Gedanken in Worte einzukleiden. Dieſe Beobachtung er-

    läutert den Zwec> des vorliegenden Werkes, dem Benüßer die leichte Auf-

    findung des ihm paſſenden Ausdruckes zu ermöglichen. => Das Werk iſt für

    den Gebrauch ſowohl der Deutſchen als der Ausländer beſtimmt. Der lehtere

    befindet ſich nicht ſelten in der Lage, ein ihm geläufiges Fremdwort nachzu-

    ſchlagen, um den entſprechenden deutſchen Ausdruck aufzufinden.


    Vei der Herſtellung des Werkes bin ich von der Anſicht ausgegangen,

    daß der Venüher desſelben eine Erklärung der vorkommenden Ausdrücke nicht

    bedürfe. Aber die Faſſung des Werkes erforderte, daß den aufgenommenen

    Fremdwörtern der entſprechende deutſche Ausdru> immer unmittelbar vorher-

    gehe oder nachfolge; und gerade hiedurch iſt die Möglichkeit geboten, den

    Gebrauch vieler, ſo häufig benühter Fremdwörter zu vermeiden und den

    „paſſenden Ausdruck“ in deutſcher Sprache zu verwenden. Dieſer Grund

    allein ſchon ſollte die Aufnahme von Fremdwörtern in dem „Deutſchen Wort-

    ſcha vollkommen berechtigt erkeinen laſſen.


    Indem ich nun auch für Auflage eine wohlwollende Auf-

    nahme ſeitens der geehrten Kritit erhoffe, erübrigt mir noch auch jenen zahl-

    reichen Benühern meines Werkes, welche mit ihren freundlichen Andeutungen

    mir behilflich an die Hand gegangen ſind, meinen Dank abzuſtatten und ihre

    fernere Teilnahme für das Werk zu erbitten.


    Wien im Mai 1892.


    Der Verfaſſer.

    Angemeldet Jetzt sind wir der Sache schon näher.

    Transkribus kommt von der Uni Innsbruck und hat "akademische" Qualität. Ich hatte schon Probleme, mich überhaupt dort anzumelden. Der Anmeldevorgang ist nicht stabil programmiert. Am Mac läuft Transkribus bei mir garnicht. Kann man aufrufen und ist dann tot.

    Transkribus hat am Server für Fraktur Tesseract laufen mit einem Modell der ONB (Österreichische Nationalbibliothek). Das Modell sollte eigentlich eine Erkennungsrate von 98-99% über die Jahrhunderte deutscher Druckgeschichte haben. Wenn die fürs Training GT4Hist verwendet haben, sollte das Modell auch Latein und Griechisch können. GT4Hist ist eine Sammlung von 330.000 Zeilen (als Bilder) mit den dazugehörigen händischen Transkriptionen quer durch die deutsche Druckgeschichte von den ersten Drucken bis 1900.

    Bei der Verwendung von Transkribus sollte die Geschwindigkeit des eigenen Rechners nicht so eine grosse Rolle spielen, weil die Hauptlast von OCR (Bildverarbeitung und Zeichenerkennung sind sehr CPU-intensiv) am Server anfällt. Die Netzwerk-Verbindung vom lokalen Rechner zum Server kann natürlich ein Nadelöhr sein.

    Ein mehrseitiges PDF zu verarbeiten, sollte eigentlich kein Problem sein. Das lässt sich relativ schnell programmieren. Selbst bei Office-Dokumenten ist es vorteilhaft, diese über Umweg PDF, und dann aus dem PDF (obwohl formatierte Texte) einzelne Bilder zwecks OCR zu erzeugen.


    Verwechslung von c, e, o, Lang-S, f, l, t, m,n,u,i, so wie b,h,k ist bei Tesseract häufig. Hängt auch mit der Qualität des Ausgangsmaterials zusammen. Ligaturen werden auch gerne zerhackt, was aber relativ egal ist, wenn man c+h statt ch-Ligatur bekommt.

    Angemeldet Was ist ein "anderer Rechner"? Welche Hardware (CPU, Festplatte/SSD), welche Betriebssystem? Wo kommt da Java ins Spiel?

    OCR funktioniert immer nur für bestimmte Sprachen, welche man einstellen muss. Das ist bei Tesseract und ABBY so.

    Der Windows Defender ist, jedenfalls bei mir, nicht dabei.

    Der Windows Defender arbeitet also korrekt?

    Ich bin ja wahrlich kein Windows Auskenner, weil ich bei Win7 stehengeblieben bin und es äusserst selten nutze. Das letzte Mal hab ich Windows glaube ich vor 2 Jahren genutzt. Aber rein aus früherer Erfahrung würde ich empfehlen, nur den Defender und keinen anderen Virenscanner zu benutzen. Der Defender macht weniger Probleme und kommt vom Hersteller des Betriebssystems selbst.