AbschnittDiskussion: Automatische Texterkennung

Diskussion: Automatische Texterkennung

In Archiven und Bibliotheken befindet sich eine schier unendliche Menge an analogen Schriftstücken. Durch mehrere Digitalisierungswellen wurden bereits vielfach Bilddigitalisate erstellt, deren Menge ebenfalls weiter zunimmt, jedoch nach wie vor nur einen geringen Umfang des Archivguts abdeckt. Beispielhaft sei genannt, dass im Bundesarchivs 2018 erst ca. ein Prozent des Gesamtbestandes digitalisiert waren (Deutschlandfunk Kultur 2018). Um die bereits vorhandenen Bilddigitalisate bestmöglich nutzen zu können, ist eine Überführung des darauf enthaltenen Texts in ein maschinenlesbares Format unabdingbar. Händisches Abtippen (keying) ist dabei oft aus Ressourcengründen nicht realistisch leistbar. Automatic Text Recognition (ATR) ermöglicht ein schnelles und kostengünstiges Vorgehen und trägt somit dazu bei, Massendigitalisierung erst möglich zu machen.

Problematisch bleibt die stets bestehende Fehlerrate, die allerdings bei händischem Erfassen genauso besteht. Hier ist im Sinne einer methodenkritischen Einordnung zu überlegen, welche Anforderungen an die Erkennung gestellt werden. Soll beispielsweise untersucht werden, ob ein bestimmtes Wort in einem Text vorkommt, kann oft eine höhere Fehlerrate toleriert werden, als wenn gezeigt werden soll, dass ein bestimmtes Wort gar nicht vorkommt (Rehbein 2017, 195).

Handelsübliche – insbesondere kommerzielle – Software erzielt mittlerweile bei gedruckten Texten – auch solchen, die in historischen Schriftarten gesetzt sind – mit einer Fehlerrate von 2-3%, sowohl bezogen auf einzelne Buchstaben als auch auf ganze Wörter sehr gute Ergebnisse (Guan u. a. 2025, 15417). Bei handschriftlichen Aufzeichnungen oder in FrakturFraktur bezeichnet eine typische Schriftgruppe des Mittelalters, bei der die Buchstabenbögen nicht rund sind, sondern aus einzelnen Teilen (Strichen) bestehen. Sie findet heute kaum noch Verwendung, nur im Namen mancher Zeitungen. Weiterlesen gesetzten Texten kann die Fehlerrate jedoch sehr stark ansteigen bis hin zur Unbrauchbarkeit der Ergebnisse. Für diesen Einsatzzweck wurden spezialisierte Tools wie Transkribus und eScriptorium entwickelt, die einen Workflow zum Training spezialisierter Erkennungsmodelle und für die händische Nachkorrektur bieten. Durch Trainieren eines eigenen Modells können die Ergebnisse erheblich verbessert bzw. erst nutzbar werden. Soll ein umfangreiches Konvolut mit derselben Schrift erfasst werden, z. B. sämtliche Briefe einer Person, ist dieses Vorgehen lohnend. Sind hingegen beispielsweise in einem Konvolut sehr viele unterschiedliche Schreiber*innen enthalten, wird das manuelle Training eines Erkennungsmodells nicht zielführend sein, da die Unterschiede in den Handschriften zu groß sind und die Erkennungsrate sich nicht verbessert. Ähnliches gilt für kleine Sammlungen wie z. B. eine Handvoll Urkunden zu einem bestimmten Thema. Für das Training eines Modells muss immer ein gewisser Prozentsatz manuell transkribiert werden, anhand dessen das Programm die Eigenheiten der vorliegenden Schrift erlernen kann. Aufgrund einer benötigten Mindestmenge kann dies bei einem kleinen Korpus bereits die Gesamtzahl an Dokumenten sein, so dass es effizienter ist, diese direkt von Anfang an manuell zu transkribieren. Wie viele Seiten für ein Training als sogenannte Ground Truth'Ground Truth auf Deutsch 'Grundwahrheit” sind Informationen, die als 'wahr” bekannt sind, d.h. als absolut richtig. In unserem Fall handelt es sich um eine manuelle und/oder verifizierte Transkription eines Textes. Ground Truth stellen im ATR-Prozess Trainingsdaten für das Erstellen eines Modells dar.' (Baillot und König, 2024) Weiterlesen benötigt werden, hängt dabei u. a. davon ab, ob ein bestehendes Modell nachtrainiert oder ein vollkommen neues erstellt wird. Als Richtwert können jedoch 20-70 Seiten angesehen werden (Denicolò und Antenhofer 2024, 136). Inwiefern der restliche Workflow von Tools wie Transkribus oder eScriptorium auch bei Verzicht auf ATR hilfreich ist, z. B. das Erkennen von Zeilen oder die gebotene Benutzeroberfläche selbst, hängt vom jeweiligen Projekt und persönlichen Vorlieben ab.

Jüngste KIKünstliche Intelligenz (KI), im Englischen Artificial Intelligence (AI), 'ist ein Teilgebiet der Informatik. Sie imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert' (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch technische Fortschritte in der verfügbaren Hardware und der Weiterentwicklung von Algorithmen des maschinellen Lernens haben sich die Fähigkeiten von KI in den letzten Jahren erheblich verbessert. Sie findet produktiven Einsatz beispielsweise im autonomen Fahren, der Steuerung von Fabriken und der Medizin (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch die neu aufgekommenen Large Language Models sind mächtige KI-basierte Werkzeuge zum Umgang mit Text entstanden. Weitere Einsatzgebiete sind auch die Erstellung und die Verarbeitung von Bildmaterial. Weiterlesen-Entwicklungen versprechen, auch ATR-Workflows zu verändern. Vision Language Models (VLM) können Segmentierung und Texterkennung in einem Durchgang durchführen sowie direkt bestimmte Ausgabeformate wie MarkdownMarkdown ist eine Auszeichnungssprache für Text. Es können grundlegende Formatierungen wie Überschriften, Aufzählungen, Tabellen etc. ausgezeichnet werden. Ziel von Markdown ist es, leicht les- und erstellbar zu sein. Softwareentwicklungsplattformen wie GitHub oder GitLab nutzen Markdown beispielsweise für die Formatierung von ReadMe-Dateien und Projekt-Wikis. Ein mit Markdown ausgezeichnetes Beispiel... Weiterlesen oder TEITEI (Text Encoding Initiative) bezeichnet sowohl eine Organisationsiehe unter: https://tei-c.org/ als auch ein gleichnamiges Dateiformat. Letzteres basiert auf XML (Extensible Markup Language), einer weit verbreiteten Auszeichnungssprache, und hat sich in den Geisteswissenschaften als Standard zur Kodierung und Auszeichnung von Texten durchgesetzt. Mit Hilfe von TEI ist es möglich, maschinenlesbar Elemente eines Textes auszuzeichnen, wie beispielsweise Absätze oder Überschriften.Die Spezifikation von TEI - auch Guidelines genannt - kann unter https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html eingesehen werden. Zudem können Inhalte wie Personen- oder Ortsnamen als solche markiert und Anmerkungen eines kritischen Apparates eingefügt werden. Im Hinblick auf das Forschungsdatenmanagement ist es vorteilhaft, dass es sich bei TEI um ein Nur-Text-Format handelt, es also auch ohne spezielle Programme von Menschen interpretiert werden kann. Weiterlesen erstellen, in denen dann auch Layout-Informationen enthalten sind.

Literatur

Baillot, Anne und Mareike König (Hg.). 2024. „Glossar ATR Deutsch“. Automatic Text Recognition. Harmonising ATR Workflows. Zuletzt aufgerufen am 05. Februar 2026. https://harmoniseatr.hypotheses.org/glossar-atr-deutsch
Denicolò, Barbara, und Christina Antenhofer. 2024. „Von der Datenerfassung zur Annotation (Transkribus). Quellen erfassen, analysieren, transkribieren und annotieren“. In Digital Humanities in den Geschichtswissenschaften, herausgegeben von Christina Antenhofer, Christoph Kühberger, und Arno Strohmeyer, 125–142. utb 6116. Wien: Böhlau Verlag.
Deutschlandfunk Kultur. 2018. „Sicherung der Archive – Lediglich ein Prozent des Bundesarchivs digitalisiert“. Zuletzt aufgerufen am 28. Januar 2026. https://www.deutschlandfunkkultur.de/sicherung-der-archive-lediglich-ein-prozent-des-100.html.
Guan, Shuhao, Moule Lin, Cheng Xu, Xinyi Liu, Jinman Zhao, Jiexin Fan, Qi Xu, und Derek Greene. 2025. „PreP-OCR: A Complete Pipeline for Document Image Restoration and Enhanced OCR Accuracy“. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), herausgegeben von Wanxiang Che, Joyce Nabende, Ekaterina Shutova, und Mohammad T. Pilehvar, 15413–25. Wien: Association for Computational Linguistics. https://doi.org/10.18653/v1/2025.acl-long.749.
Rehbein, Malte. 2017. „Digitalisierung“. In Digital Humanities. Eine Einführung, herausgegeben von Fotis Jannidis, Hubertus Kohle, und Malte Rehbein, 179–198. Stuttgart: J. B. Metzler.

Suche in HISTOFOX

Diskussion: Automatische Texterkennung

Literatur

Nachweise in Data Affairs

Artikel

Lerneinheit