AbschnittVorgehen: Digitale Annotation von Quellen

Vorgehen: Digitale Annotation von Quellen

Bei ursprünglich analogen Texten ist die digitale Annotation Teil einer Reihe von Schritten, die im Rahmen des Digitalisierungsprozesses erfolgen können, wobei vorher eine Umwandlung des Bilddigitalisats in maschinenlesbaren Text durchgeführt werden muss (vgl. Artikel Automatische Texterkennung). Das konkrete Vorgehen bei der digitalen Annotation hängt stark vom genutzten Tool ab, und ob eine automatische Erkennung von Entitäten stattfindet oder nicht. Grundsätzlich lassen sich folgende Schritte identifizieren:

Manuelle Annotation

Auswählen eines Tools
Es gibt eine Vielzahl an Tools, mit denen Daten annotiert werden können. Die Unterschiede liegen in der Regel bei der Zielgruppe, den Systemvoraussetzungen sowie der Frage nach dem kollaborativen Arbeiten. Einige Tools versuchen, die technischen Details der Annotation so weit wie möglich mittels einer grafischen Benutzeroberfläche zu abstrahieren. Es gibt webbasierte Tools, die sich standortunabhängig und ohne Installation nutzen lassen, sowie solche, die lokal installiert werden müssen, dafür ggf. aber einen erweiterten Funktionsumfang bieten. Tools lassen sich außerdem danach unterscheiden, ob sie für kollaboratives Arbeiten geeignet sind, oder ob sie sich an Einzelforschende richten. Für die Recherche nach solchen Tools kann der SSH Open Marketplace verwendet werden. Die Auswahl ist abhängig von den zu annotierenden Datentypen, den angewendeten Methoden und den Arbeitsprozessen. Hier ist es sinnvoll, sich Anwendungsbeispiele auf den zugehörigen Webseiten anzusehen, die Demoversion, sofern vorhanden, mit einem eigenen Datenbeispiel auszutesten, aber auch Kolleg*innen um Rat zu fragen und deren Erfahrungen zu hören.
Vorbereiten der Untersuchungsmaterialien
Die Daten müssen – egal ob digitalisiert oder born digital – in einem passenden Dateiformat vorliegen. Am besten geeignet und, je nach gewähltem Tool, auch notwendig, sind dafür spezielle, standardisierte Formate wie TEITEI (Text Encoding Initiative) bezeichnet sowohl eine Organisationsiehe unter: https://tei-c.org/ als auch ein gleichnamiges Dateiformat. Letzteres basiert auf XML (Extensible Markup Language), einer weit verbreiteten Auszeichnungssprache, und hat sich in den Geisteswissenschaften als Standard zur Kodierung und Auszeichnung von Texten durchgesetzt. Mit Hilfe von TEI ist es möglich, maschinenlesbar Elemente eines Textes auszuzeichnen, wie beispielsweise Absätze oder Überschriften.Die Spezifikation von TEI - auch Guidelines genannt - kann unter https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html eingesehen werden. Zudem können Inhalte wie Personen- oder Ortsnamen als solche markiert und Anmerkungen eines kritischen Apparates eingefügt werden. Im Hinblick auf das Forschungsdatenmanagement ist es vorteilhaft, dass es sich bei TEI um ein Nur-Text-Format handelt, es also auch ohne spezielle Programme von Menschen interpretiert werden kann. Weiterlesen-konformes [XML]. Je nachdem, wie die Ausgangsdaten beschaffen sind, kann hier zusätzlicher Arbeitsaufwand entstehen, der in der Arbeitsprogrammplanung berücksichtigt werden muss.
Zuweisen von Entitäten
Die zuzuweisenden Entitäten (z. B. Personen, Orte, Begrifflichkeiten, Werke, Ereignisse) müssen in den Quellen identifiziert und entsprechend markiert werden. In Texten handelt es sich dabei um einzelne Wörter oder Textpassagen, in Bildern um bestimmte Bildelemente oder in Videos um einzelne Szenen oder Standbilder. Im nächsten Schritt werden die so identifizierten Entitäten mit einem Eintrag, oftmals auch Lemma oder Kategorie genannt, verbunden. Hierfür muss vorab eine Strategie festgelegt werden, welche Entitäten wie ausgezeichnet werden sollen. Es müssen Kriterien definiert werden, also beispielsweise, welche Personen, Orte, Ereignisse oder andere Aspekte ausgezeichnet werden sollen. Je nach Korpus ist z. B. bei Personen zu überlegen, ob nur solche von öffentlicher Bedeutung ausgezeichnet werden sollen oder es z. B. gerade auf Privatpersonen als Briefschreiber ankommt. Zu beantworten ist auch die Frage, ob nur direkte namentliche Erwähnungen relevant sind, oder auch indirekte Bezüge mit er oder sie annotiert werden sollen. Ähnliches gilt für andere Kategorien von Entitäten ebenso.
Optional: Verknüpfen mit Eintrag aus Normdaten
Wenn möglich, sollten Entitäten mit einem Eintrag aus einer Normdatei verknüpft werden, um diese eindeutig identifizierbar zu machen. Bei Orten ermöglicht dies auch die spätere Georeferenzierung auf einer Karte, da Normdateien für diese Koordinaten vorhalten (vgl. Artikel Normdaten). Dies bietet zudem den Vorteil, dass z. B. bei einer digitalen Edition dann biografische Daten aus dieser Normdatei eingeblendet werden können.
In vielen Projekten ist es jedoch so, dass die meisten Entitäten nicht in einer Normdatei wie z. B. der GNDDie Gemeinsame Normdatei (GND) ist eine deutschsprachige Normdatei, die von der Deutschen Nationalbibliothek zusammen mit Partnern aus den deutschsprachigen Bibliotheksverbünden und weiteren Einrichtungen gepflegt wird. Sie umfasst Einträge zu einer breiten Auswahl an Entitäten aus den Bereichen Personen, Körperschaften, Konferenzen, Geografika, Sachbegriffen und Werken (Gemeinsame Normdatei (GND) 2025). Weiterlesen enthalten sind, da es sich ggf. um Privatpersonen ohne öffentliche Bedeutung handelt. In diesem Fall sollte ein Projekt darauf achten, eigene Identifikatoren anzulegen und zu pflegen, wodurch ebenfalls projektweit eindeutige Identifikation möglich ist.
Hinzufügen zusätzlicher Informationen zu den Entitäten und Annotationen
Es kann sehr sinnvoll sein, zusätzliche Informationen sowohl zu den Entitäten als auch zu den annotierten Quellenbefunden, also der Annotation selbst, zu erfassen.
So sollten zu den Entitäten möglichst Verweise auf einen Normdatensatz gespeichert werden. Weitere Informationen zur Disambiguation wie bspw. der vollständige Name einer Person, Namensvarianten und Geburts- oder Sterbedatum sind ebenfalls empfehlenswert. Insbesondere bei selbst entwickelten Vokabularen muss genau überlegt werden, welche zusätzlichen Informationen zu einer Entität erfasst werden müssen, um die Begrifflichkeiten eindeutig voneinander zu unterscheiden und korrekt auf die Quellenbefunde anwenden zu können. Dies umfasst in der Regel Begriffserläuterungen und -definitionen. Diese helfen nicht nur bei der korrekten Zuordnung, sondern dienen auch dem späteren Verständnis und der Nachvollziehbarkeit. Aber auch Synonyme, methodisch bedingte Klassifikationen und Kategorien oder Referenzen auf andere Quellen bzw. Sekundärliteratur können notwendige Zusatzinformationen sein, die im Vokabular abgebildet werden sollten.
Es kann zudem notwendig sein, zu den einzelnen Annotationen selbst zusätzliche Informationen zu speichern, bspw. einen Kommentar, falls die Zuordnung zur Entität aus dem Normvokabular nicht eindeutig ist.

Suche in HISTOFOX

Vorgehen: Digitale Annotation von Quellen