Logo

Suche in HISTOFOX

LerneinheitAutomatische Texterkennung

Motivation

Die maschinenlesbare Darstellung von Quellen ist der Ausgangspunkt für automatisierte Untersuchungsmethoden der digitalen Analyse. Sie ist ebenfalls Grundlage für eine Annotation von Texten, die diese weiter aufbereitet und durch Auszeichnung von z. B. darin vorkommenden Ereignissen, Orten und Personen neue Zugangsmöglichkeiten durch Vernetzung von Informationen bietet. Zudem ermöglicht ein entsprechend aufbereitetes Digitalisat auch die Durchsuchbarkeit, z. B. nach bestimmten Stichwörtern, und trägt somit zur Arbeitserleichterung bei. Ein händisches Abtippen (keying) ist jedoch nicht nur sehr aufwändig sondern auch fehleranfällig, weswegen in der Regel mehrere Durchgänge notwendig sind. Dies erfordert bei umfangreichen Textsammlungen einen hohen Aufwand und Zeiteinsatz. Das automatische Erfassen von Text (Automatic Text Recognition) ist daher seit der frühen Computernutzung ein Desiderat. Unter günstigen Voraussetzungen können dabei innerhalb von Minuten ganze Werke in ein maschinenlesbares Format überführt werden. Aktuelle Systeme ermöglichen zudem Layouterkennung, wodurch die Zuordnungen von z. B. Tabellen oder Formatierungen wie Überschriften erhalten bleiben. Dies kann von Bedeutung sein, wenn beispielsweise ausgewertet werden soll, wie lang Kapitel in unterschiedlichen Werkgattungen sind oder tabellarische Auflistungen in ihrer ursprünglichen Tabellenform erkennbar bleiben sollen.