Einführung
Bereits BilddigitalisateDigitalisate werden hergestellt, indem analoge Materialien wie Bücher, Handschriften, Urkunden, Bilder, Artefakte in digitale Formate überführt werden, die elektronisch gesichert werden. Digitale Daten haben den Vorteil, dass sie vervielfacht, geteilt und maschinell verarbeitet werden können (Data Affairs, Glossar). Weiterlesen können eine erhebliche Arbeitserleichterung darstellen. Sie können den Gang in ein Archiv oder eine Bibliothek ersetzen und sind bei einer Bereitstellung über das Internet rund um die Uhr zugänglich. Trotzdem sind sie zunächst weiterhin auf den (sehenden) Menschen als Rezipienten ausgerichtet. Automatic Text Recognition (ATR) bietet die Möglichkeit, diese Inhalte auch maschinenlesbar zu machen. Digitalisate sind zunächst nur Bilddateien, in denen Informationen über Farbintensitäten pixelweise abgespeichert sind. Der Computer kann nicht erkennen, ob das sich so ergebende Muster Text, eine Abbildung oder lediglich zusammenhanglose Punkte darstellt. Um daraus maschinell verarbeitbare Informationen zu gewinnen, muss der im Digitalisat abgebildete Text in ein maschinenlesbares Format überführt werden. Dies kann manuell durch Abtippen (keying) erfolgen oder durch automatisierte Methoden. Bei letzteren werden Muster in den Pixeln des Bilddigitalisates erkannt und daraufhin den Pixeln die passenden Buchstaben oder Wörter zugeordnet. Das genaue Verfahren wird detaillierter im Abschnitt Vorgehen erläutert.
