Logo

Suche in HISTOFOX

AbschnittDiskussion: Named Entity Recognition

Diskussion: Named Entity Recognition

Durch die Anwendung von Named Entity Recognition (NER) kann der Arbeitsaufwand potenziell reduziert werden. Wie im Methodenteil dargelegt, liefern die meisten Programme kein fertiges Ergebnis, sondern sind Teil einer zu implementierenden Pipeline, an deren Ende dann ein automatisiert annotiertes Dokument steht. Bei umfangreichen Projekten ist es lohnenswert, solch eine Pipeline aufzubauen. Die automatische Annotation kann mittlerweile die Mehrheit der Entitäten erkennen (Keraghel, Morbieu, und Nadif 2024, 27) und stellt somit eine erhebliche Zeitersparnis dar.

Wie mit der verbleibenden Fehlerrate umzugehen ist, muss dabei mit vergleichbar anderen automatischen Methoden projektspezifisch entschieden werden (vgl. Artikel Automatische Texterkennung). Bei entsprechender, transparenter Dokumentation spricht zumindest aber prinzipiell nichts gegen die Veröffentlichung von Daten, bei denen bereits bekannt ist, dass diese noch Fehler enthalten, weil z. B. keine manuelle Nachkorrektur erfolgt ist. Nachnutzende Forschende gehen dann nicht von falschen Tatsachen aus und können entsprechend mit dem Datensatz umgehen und ihn ggf. selbst prüfen und korrigieren. Auch für die Arbeit innerhalb des eigenen Projektes ist es wichtig, sich der Fehlerrate und den sich daraus ergebenden Implikationen bewusst zu sein. Wenn es um einen Distant-Reading'Distant Reading ist ein Ansatz aus den digitalen Literaturwissenschaften, bei dem computationelle Verfahren auf häufig große Mengen an Textdaten angewandt werden, ohne dass die Texte selber gelesen werden'. (forTEXT 2025) Weiterlesen-Ansatz geht, bei dem große Korpora z. B. auf Beziehungsnetzwerke hin untersucht werden sollen, ist eine höhere Fehlerquote oft eher vertretbar als bei einem Close-Reading'Close Reading bezeichnet die sorgfältige Lektüre und Interpretation eines einzelnen oder weniger Texte' (vgl. auch Distant Reading als Gegenbegriff) (forTEXT o.D.). Weiterlesen-Ansatz, bei dem jede einzelne Textstelle relevant ist (Schumacher 2018). Wenn es entscheidend ist, dass jedes Vorkommen einer Entität gefunden wird, ist auch zu überlegen, welchen Vorteil NER noch bietet, wenn der komplette Text sowieso noch einmal manuell auf eventuell nicht erkannte Identitäten hin überprüft werden muss.

Aus praktischer Sicht bleibt beim Einsatz von NER-Tools jedoch zu bedenken, dass diese meistens zur Erkennung in modernen, englischsprachigen Texten konzipiert wurden, also ggf. bei historischen Entitäten schlechter abschneiden. Welche Veränderungen hier Large Language Models mit ihrem nicht nur breiteren Kontext-, sondern auch ihrem universalen Sprachverständnis (Hiltmann 2024, 226) bringen können, bleibt abzuwarten.

Literatur

  • Hiltmann, Torsten. 2024. „Hermeneutik in Zeiten der KI. Large Language Models als hermeneutische Instrumente in den Geschichtswissenschaften“. In KI:Text. Diskurse über KI-Textgeneratoren, herausgegeben von Gerhard Schreiber, und Lukas Ohly, 201–32. Berlin, Boston: De Gruyter. https://doi.org/10.1515/9783111351490-014.

  • Keraghel, Imed, Stanislas Morbieu, und Mohamed Nadif. 2024. „Recent Advances in Named Entity Recognition: A Comprehensive Survey and Comparative Study“. arXiv. https://doi.org/10.48550/arXiv.2401.10825.

  • Schumacher, Mareike. 2018. „Named Entity Recognition (NER)“. forTEXT. Literatur digital erforschen. Zuletzt aufgerufen am 28. Januar 2026. https://fortext.net/routinen/methoden/named-entity-recognition-ner.