AbschnittEinführung: Digitale Annotation von Quellen

Einführung: Digitale Annotation von Quellen

Die digitale Annotation ist eine Methode zur Anreicherung und Aufbereitung von Forschungsdaten. Sie lässt sich prinzipiell auf alle digitalen Objekte anwenden, unerheblich, ob es sich um Digitalisate ursprünglich analoger Objekte oder born digitals – also genuin digitale Objekte – handelt. Auch die Art des Objektes ist dabei unerheblich. In Filmen können beispielsweise wiederkehrende Metaphern in den jeweiligen Szenen annotiert werden oder auf Fotografien darauf abgebildete Personen. Der vorliegende Artikel betrachtet vorwiegend die Annotation von Texten, da diese in den historisch arbeitenden Disziplinen insgesamt die häufigste Quellenart darstellen.
Die Annotation von handelnden Personen, erwähnten Orten bzw. Ereignissen oder vorkommenden Zitaten ist eine Form der Aufbereitung und Erschließung von Quellen, um anschließend weitere Untersuchungen und Auswertungen vornehmen zu können. Die annotierten Objekte werden als EntitätenDer Begriff Entität bezeichnet je nach Fachrichtung unterschiedliche Konzepte. Im Bereich der Normdaten sind damit konkrete Dinge wie z. B. Personen, Sachen, Werke, aber auch abstrakte Konzepte gemeint, die entsprechend beschrieben werden können. Entitäten werden in Normdaten mit dazugehöriger Beschreibung und weiteren Informationen verwaltet. In Dokumenten können diese Entitäten anschließend identifiziert und mit dem Eintrag in der Normdatei verknüpft werden. Weiterlesen bezeichnet. Wie auch im Analogen das Markieren unterschiedlichste Formen annehmen kann, so ist die digitale Annotation in verschiedenen Formaten denkbar, beispielsweise als Kommentare in Office-Dokumenten. Um jedoch die dauerhafte Nutz- und automatische Auswertbarkeit der Annotationen zu gewährleisten, ist ein passendes, offen standardisiertes Dateiformat notwendig (vgl. Artikel Archivierung). In den Geisteswissenschaften wird dabei für Texte in aller Regel TEITEI (Text Encoding Initiative) bezeichnet sowohl eine Organisationsiehe unter: https://tei-c.org/ als auch ein gleichnamiges Dateiformat. Letzteres basiert auf XML (Extensible Markup Language), einer weit verbreiteten Auszeichnungssprache, und hat sich in den Geisteswissenschaften als Standard zur Kodierung und Auszeichnung von Texten durchgesetzt. Mit Hilfe von TEI ist es möglich, maschinenlesbar Elemente eines Textes auszuzeichnen, wie beispielsweise Absätze oder Überschriften.Die Spezifikation von TEI - auch Guidelines genannt - kann unter https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html eingesehen werden. Zudem können Inhalte wie Personen- oder Ortsnamen als solche markiert und Anmerkungen eines kritischen Apparates eingefügt werden. Im Hinblick auf das Forschungsdatenmanagement ist es vorteilhaft, dass es sich bei TEI um ein Nur-Text-Format handelt, es also auch ohne spezielle Programme von Menschen interpretiert werden kann. Weiterlesen verwendet.
Um die Auszeichnung zu vereinheitlichen, kann entweder ein bestehendes Vokabular verwendet oder ein eigenes entlang der Forschungsfrage entwickelt werden (vgl. Artikel Normvokabulare). Belegstellen in den Quellen können dann mithilfe dieses Vokabulars systematisch ausgezeichnet werden. Dies ermöglicht es, im nachfolgenden Auswertungs- und Schreibprozess sich alle Belegstellen zu einem Phänomen sehr leicht aus dem gesamten Quellenkorpus zusammenzustellen und diese beispielsweise nochmals vergleichend zu bewerten.
Da das manuelle Finden und Annotieren sämtlicher Entitäten insbesondere in einem umfangreichen Korpus ausgesprochen zeitaufwändig ist, kann mit Named Entity Recognition (NER) ein maschinelles Verfahren angewendet werden, welches Methoden der Künstlichen IntelligenzKünstliche Intelligenz (KI), im Englischen Artificial Intelligence (AI), 'ist ein Teilgebiet der Informatik. Sie imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert' (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch technische Fortschritte in der verfügbaren Hardware und der Weiterentwicklung von Algorithmen des maschinellen Lernens haben sich die Fähigkeiten von KI in den letzten Jahren erheblich verbessert. Sie findet produktiven Einsatz beispielsweise im autonomen Fahren, der Steuerung von Fabriken und der Medizin (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch die neu aufgekommenen Large Language Models sind mächtige KI-basierte Werkzeuge zum Umgang mit Text entstanden. Weitere Einsatzgebiete sind auch die Erstellung und die Verarbeitung von Bildmaterial. Weiterlesen verwendet. Damit können insbesondere Orts- und Personennamen automatisiert gefunden werden (vgl. Artikel Named Entity Recognition).

Suche in HISTOFOX

Einführung: Digitale Annotation von Quellen