Logo

Suche in HISTOFOX

AbschnittEinführung: Automatische Texterkennung

Einführung: Automatische Texterkennung

Die Umwandlung eines gedruckten Textes in ein maschinenlesbares Format setzt die Erstellung von BilddigitalisatenDigitalisate werden hergestellt, indem analoge Materialien wie Bücher, Handschriften, Urkunden, Bilder, Artefakte in digitale Formate überführt werden, die elektronisch gesichert werden. Digitale Daten haben den Vorteil, dass sie vervielfacht, geteilt und maschinell verarbeitet werden können (Data Affairs, Glossar). Weiterlesen voraus. Anschließend erfolgt bei der Automatic Text Recognition (ATR), zu Deutsch Automatische Texterkennung, die Erkennung der Zeichen und Wörter selbst größtenteils automatisiert. Bei gedruckten oder maschinengeschriebenen Werken heißt das Verfahren Optical Character Recognition (OCR)Optical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen, bei handschriftlichen Texten Handwritten Text Recognition (HTR)Handwritten Text Recognition (HTR) bezeichnet die automatische Erkennung von Handschriften. Der Scan der Handschrift wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen (forTEXT). Weiterlesen. Beide Varianten zielen auf die Umwandlung in ein maschinenlesbares Format und werden unter den Oberbegriff ATR (Automatic Text Recognition) zusammengefasst.

Bereits BilddigitalisateDigitalisate werden hergestellt, indem analoge Materialien wie Bücher, Handschriften, Urkunden, Bilder, Artefakte in digitale Formate überführt werden, die elektronisch gesichert werden. Digitale Daten haben den Vorteil, dass sie vervielfacht, geteilt und maschinell verarbeitet werden können (Data Affairs, Glossar). Weiterlesen können eine erhebliche Arbeitserleichterung darstellen. Sie können den Gang in ein Archiv oder eine Bibliothek ersetzen und sind bei einer Bereitstellung über das Internet rund um die Uhr zugänglich. Trotzdem sind sie zunächst weiterhin auf den (sehenden) Menschen als Rezipienten ausgerichtet. Automatic Text Recognition (ATR) bietet die Möglichkeit, diese Inhalte auch maschinenlesbar zu machen. Digitalisate sind zunächst nur Bilddateien, in denen Informationen über Farbintensitäten pixelweise abgespeichert sind. Der Computer kann nicht erkennen, ob das sich so ergebende Muster Text, eine Abbildung oder lediglich zusammenhanglose Punkte darstellt. Um daraus maschinell verarbeitbare Informationen zu gewinnen, muss der im Digitalisat abgebildete Text in ein maschinenlesbares Format überführt werden. Dies kann manuell durch Abtippen (keying) erfolgen oder durch automatisierte Methoden. Bei letzteren werden Muster in den Pixeln des Bilddigitalisates erkannt und daraufhin den Pixeln die passenden Buchstaben oder Wörter zugeordnet. Das genaue Verfahren wird detaillierter im Abschnitt Vorgehen erläutert.

Nachweise in Data Affairs

Artikel

Automatische Texterkennung

Lerneinheit

Automatische Texterkennung