Logo

Suche in HISTOFOX

AbschnittDiskussion: Digitale Annotation von Quellen

Diskussion: Digitale Annotation von Quellen

Die digitale Annotation ist ein wichtiger Bestandteil der Aufbereitung von genuin digitalen Texten genauso wie von transkribierten Retrodigitalisaten und somit ein Teil der Digitalisierungspipeline. Entsprechend ausgezeichnete Entitäten ermöglichen nicht nur eine automatische Analyse durch z.B. Aufbau von Beziehungsnetzwerken, sondern bieten auch für Menschen eine Lesehilfe, gerade wenn z. B. annotierte Personen in einem Personenverzeichnis zusammengefasst werden. Durch Verlinkung mit Normdaten entsteht nicht nur ein deutlich angereicherter Datensatz, sondern bei Veröffentlichung unter einer passenden Lizenz (vgl. Artikel Lizenzen) wird auch ein Beitrag zu Linked Open Data als Teil des Semantic Web geschaffen. Für Benutzer der so veröffentlichten Daten ergeben sich neue Erkenntnismöglichkeiten, beginnend beim Nachschlagen von unbekannten Entitäten in der jeweiligen Normdatei bis hin zur Verknüpfung mehrerer Korpora. Durch Verweis auf eindeutige Entitäten in Normdateien können so auch Datensätze unterschiedlicher Herkunft in Beziehung zueinander gebracht werden.
Es muss jedoch bedacht werden, dass die Annotation mit einem nicht zu unterschätzenden Aufwand einhergeht, vor allem bei der manuellen Auszeichnung. Nicht jede Entität ist in einer der üblichen Normdateien vertreten. Für umfangreiche Projekte kann es sich also lohnen, eine eigene Normdatei zu führen, was jedoch zusätzlichen Aufwand bedeutet. Gerade die Tiefe der Auszeichnung ist dabei kritisch abzuwägen. Bei scholastischer Auslegung der FAIR-Prinzipien kann schnell der Eindruck entstehen, dass von Forschenden, die ihre Forschungsdaten bereitstellen, erwartet wird, alle vorkommenden Entitäten auszuzeichnen. Praktisch ist dieser Aufwand jedoch nicht zu leisten, bzw. stünde die Erfüllung einer solchen Forderung den eigentlichen Projektzielen entgegen. Wenn ein Projekt z. B. lediglich geografische Aspekte untersuchen möchte, ergibt es keinen Sinn, alle handelnden Personen auszuzeichnen. Auch ist es vielfach ausreichend, Personen oder Orte nur bei namentlicher Nennung auszuzeichnen und nicht bei jedem Verweis (er, sie, dort etc.). Forschenden, die weitergehende Anforderungen an die Daten haben, steht es bei entsprechend vergebener Lizenz frei, im Zuge der Nachnutzung weitergehende Annotationen hinzuzufügen.
Durch die Anwendung von automatisierten Verfahren (vgl. Artikel Named Entity Recognition) kann der Arbeitsaufwand potenziell reduziert werden. Die automatische Annotation kann mittlerweile die Mehrheit der Entitäten erkennen (Keraghel, Morbieu, und Nadif 2024, 27) und somit eine erhebliche Zeitersparnis bedeutet. Wie mit der verbleibenden Fehlerrate umzugehen ist, muss dabei vergleichbar anderen automatischen Methoden projektspezifisch entschieden werden (vgl. Artikel Automatische Texterkennung).
Im praktischen Einsatz ist auch die Wahl der Normdatenquelle zu bedenken. Für bekannte Entitäten wie beispielsweise Großstädte gibt es sowohl Einträge in der GNDDie Gemeinsame Normdatei (GND) ist eine deutschsprachige Normdatei, die von der Deutschen Nationalbibliothek zusammen mit Partnern aus den deutschsprachigen Bibliotheksverbünden und weiteren Einrichtungen gepflegt wird. Sie umfasst Einträge zu einer breiten Auswahl an Entitäten aus den Bereichen Personen, Körperschaften, Konferenzen, Geografika, Sachbegriffen und Werken (Gemeinsame Normdatei (GND) 2025). Weiterlesen als auch in WikidataWikidata ist eine internationale, kollaborative Wissensdatenbank, die eng mit Wikipedia verknüpft ist und auf deren Konzept der Wissenssammlung aufbaut. Sie kann als Normdatei verwendet werden. Viele Einträge sind zudem mit weiteren Ressourcen verknüpft und verweisen beispielsweise auf zugehörige Einträge in der GND. Weiterlesen. Auch eine Verknüpfung über Geonames – eine geografische Datenbank mit Koordinatenzuordnung – käme in diesem Fall infrage (vgl. Artikel historische Ortsdaten). Welche Normdatenquelle hier die bessere Wahl ist, lässt sich nicht allgemein beantworten, sondern muss als eine Richtlinie innerhalb des Projektes festgelegt werden, wie in vielen Fällen ist vor allem ein einheitliches Vorgehen wichtig.

Literatur

  • Keraghel, Imed, Stanislas Morbieu, und Mohamed Nadif. 2024. „Recent Advances in Named Entity Recognition: A Comprehensive Survey and Comparative Study“. arXiv. https://doi.org/10.48550/arXiv.2401.10825.