Logo

Suche in HISTOFOX

GlossareintragBereinigung

Bereinigung

Datenbereinigung umfasst die Verbesserung der QualitätDatenqualität (in historisch arbeitenden Fächern) ist ein Maß für den Zustand von Daten hinsichtlich quantitativer Merkmale wie Genauigkeit und Vollständigkeit sowie qualitativer Aspekte wie Relevanz und Nachvollziehbarkeit. Dabei gibt es keinen absoluten Qualitätsmaßstab: Was als qualitativ hochwertig gilt, hängt stets vom konkreten Forschungsvorhaben, der zugrundeliegenden Fragestellung und der angewandten Methode ab.In historisch arbeitenden Fächern treten zwei spezifische Herausforderungen hinzu. Erstens sind historische Forschungsdaten in außerordentlicher inhaltlicher Vielfalt und struktureller Heterogenität überliefert – von Handschriften und Drucken über Fotografien und Tonaufnahmen bis hin zu nativ digitalen Datensätzen. Welche Kontextinformationen zu einer Quelle erfasst werden müssen, ist dabei nicht absolut bestimmbar, sondern ergibt sich neben der Quellentypspezifik aus der jeweiligen Fragestellung: Denn die Kontextualisierung einer Quelle könnte theoretisch unbegrenzt fortgesetzt werden, ist in der Praxis aber auf das für den Forschungszweck Notwendige beschränkt. Zweitens sind historische Daten grundsätzlich durch Überlieferungslücken und Unschärfen geprägt: Bestimmte Informationen sind schlicht nicht mehr rekonstruierbar, was Vollständigkeit als Qualitätskriterium im historischen Kontext nur bedingt anwendbar macht. Datenqualität bedeutet hier daher weniger das Erreichen eines absoluten Vollständigkeitsideals als vielmehr die transparente Dokumentation dessen, was vorhanden ist, was fehlt und warum (vgl. Körfer 2026). Weiterlesen eines bestehenden digitalen Objekts. Dazu gehören beispielsweise die Korrektur von Fehlern in einem Text, die Nachbereitung von OCROptical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen-Ergebnissen oder die Fehlerbehebung eines Codes (Borek et al 2021).

Literatur und Quellenangaben

  • Borek, Luise, Canan Hastik, Vera Khramova und Jonathan Geiger. 2021. TaDiRAH. Taxonomy of Digital Research Activities in the Humanities. Version 2.0. Zuletzt aufgerufen am 05. März 2026. https://vocabs.dariah.eu/tadirah/en/

Zitierweise

HISTOFOX. 2026. „Bereinigung“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/glossar/bereinigung/