Einführung: Named Entity Recognition
Da das manuelle Finden und Annotieren sämtlicher Entitäten insbesondere in einem umfangreichen Korpus ausgesprochen zeitaufwändig ist (vgl. Artikel Digitale Annotation von Quellen), kann mit Named Entity Recognition (NER) ein maschinelles Verfahren angewendet werden, welches Methoden der Künstlichen Intelligenz verwendet. Solch ein System kann insbesondere Eigen- und Ortsnamen erkennen, muss dafür aber passend trainiert sein.
NER als ein Teilgebiet des maschinellen Lernens und des Natural Language ProcessingNatural Language Processing (NLP), maschinelle Sprachverarbeitung zu Deutsch, ist ein Teilgebiet der Linguistik, der Informatik und der künstlichen Intelligenz, welches sich damit beschäftigt, wie Computer so programmiert werden, dass sie große Mengen an natürlichsprachlichen Daten verarbeiten und analysieren können. Weiterlesen hat eine lange Tradition und wird bereits vielfach in Digital-Humanities-Projekten eingesetzt. Durch das Aufkommen von Large Language ModelsLarge Language Models (LLM), große Sprachmodelle im Deutschen, sind eine Technik aus dem Bereich des Machine Learning. Es handelt sich um 'leistungsstarke Modelle, die darauf ausgelegt sind, menschliche Sprache zu verstehen und zu generieren. Sie können Text analysieren und verstehen, kohärente Antworten generieren und sprachbezogene Aufgaben ausführen' (Jöckel, Kelbert, und Siebert 2023). Ihre Fähigkeiten erhalten sie einerseits durch ihre Architektur und andererseits durch die schiere Menge ihrer Trainingsdaten. Auf wie viele Erkenntnisse aus ihrem Trainingsprozess die Modelle während der Ausführung zurückgreifen können, wird u. a. durch die Anzahl ihrer Parameter bestimmt. Aufgrund der notwendigen Rechenleistung zur Ausführung ist i. d. R. spezialisierte Hardware notwendig. LLMs können Teil einer Pipeline sein, um Informationen auszuwerten und beispielsweise durch Nutzung zusätzlicher Quellen Antworten zu generieren. Problematisch bleibt, dass LLMs kein Konzept von Korrektheit kennen und ihre eigenen Aussagen nur begrenzt auf Richtigkeit prüfen können, wodurch sie zu sog. Halluzinationen neigen (Naveed et al. 2024). Weiterlesen ändern sich auch hier die technischen Grundlagen, das Prinzip bleibt aber gleich. Anhand von Trainingsdaten lernt ein System, wie Named Entities – also Eigennamen – in bestimmten Sprachen aufgebaut sind und kann diese dann später in Texten selbstständig finden (Schumacher 2018).
Eine Verbindung mit Normdaten (vgl. Artikel Digitale Annotation von Quellen, Normdaten) findet bei der Anwendung von NER noch nicht statt. Üblicherweise erfolgt diese manuell während des Korrekturschritts, der bei NER aufgrund der inhärenten Fehlerquote von automatischen Systemen meistens notwendig ist. Die Automatisierung kann jedoch auch hier weitergetrieben werden. Mithilfe zusätzlicher KIKünstliche Intelligenz (KI), im Englischen Artificial Intelligence (AI), 'ist ein Teilgebiet der Informatik. Sie imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert' (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch technische Fortschritte in der verfügbaren Hardware und der Weiterentwicklung von Algorithmen des maschinellen Lernens haben sich die Fähigkeiten von KI in den letzten Jahren erheblich verbessert. Sie findet produktiven Einsatz beispielsweise im autonomen Fahren, der Steuerung von Fabriken und der Medizin (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch die neu aufgekommenen Large Language Models sind mächtige KI-basierte Werkzeuge zum Umgang mit Text entstanden. Weitere Einsatzgebiete sind auch die Erstellung und die Verarbeitung von Bildmaterial. Weiterlesen-Modelle oder LLMs können Normdateien durchsucht und die Wahrscheinlichkeit berechnet werden, welcher potenzielle Treffer in der Normdatei am besten zur erkannten Entität passt.
Literatur
Schumacher, Mareike. 2018. „Named Entity Recognition (NER)“. forTEXT. Literatur digital erforschen. Zuletzt aufgerufen am 28. Januar 2026. https://fortext.net/routinen/methoden/named-entity-recognition-ner.
