Definition
„Textdigitalisierung bezeichnet den Prozess der Umwandlung eines gedruckten oder handschriftlichen Textes in einen maschinell lesbaren elektronischen Text“.
(Horstmann 2018)
Dies setzt zunächst die Erstellung von BilddigitalisatenDigitalisate werden hergestellt, indem analoge Materialien wie Bücher, Handschriften, Urkunden, Bilder, Artefakte in digitale Formate überführt werden, die elektronisch gesichert werden. Digitale Daten haben den Vorteil, dass sie vervielfacht, geteilt und maschinell verarbeitet werden können (Data Affairs, Glossar). Weiterlesen voraus. Anschließend erfolgt bei der Automatic Text Recognition (ATR), zu Deutsch Automatische Texterkennung, die Erkennung der Zeichen und Wörter selbst größtenteils automatisiert. Bei gedruckten oder maschinengeschriebenen Werken heißt das Verfahren Optical Character Recognition (OCR)Optical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen, bei handschriftlichen Texten Handwritten Text Recognition (HTR)Handwritten Text Recognition (HTR) bezeichnet die automatische Erkennung von Handschriften. Der Scan der Handschrift wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen (forTEXT). Weiterlesen. Beide Varianten zielen auf die Umwandlung in ein maschinenlesbares Format und werden unter den Oberbegriff ATR (Automatic Text Recognition) zusammengefasst.
