Logo

Suche in HISTOFOX

LehrszenarioExploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen

Exploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen

Methoden

  • ExplorationExploration bezeichnet die offene, nicht zielgerichtete Untersuchung von Daten oder Materialien mit dem Ziel, neue Zusammenhänge, Muster oder Fragestellungen zu entdecken. Weiterlesen und TransformationTransformation bezeichnet die Überführung von Daten oder Objekten in eine qualitativ andere Form oder Darstellung, etwa die Umwandlung von Dateiformaten, die Konvertierung analoger in digitale Inhalte oder die Überführung von Daten in ein anderes Datenmodell. Weiterlesen strukturierter Daten
  • Heuristische Analyse zur Erkennung von Mustern und Korrelationen
  • Formulierung und Prüfung von Hypothesen und weiterführenden Fragestellungen
  • Erkennung und BereinigungDatenbereinigung umfasst die Verbesserung der Qualität eines bestehenden digitalen Objekts. Dazu gehören beispielsweise die Korrektur von Fehlern in einem Text, die Nachbereitung von OCR-Ergebnissen oder die Fehlerbehebung eines Codes (Borek et al 2021). Weiterlesen von OCROptical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen‑ und Druckfehlern

Kompetenzen und Lernziele

Was ist eine CSV-Datei? Wie gehe ich mit unterschiedlichen Trennzeichen zwischen Datenfeldern (Spalten) und Datensätzen (Zeilen) sowie unterschiedlichen Zeichenkodierungen um? Wie öffne ich eine solche Datei in gängigen Office-Programmen (MS Excel, LibreOffice Calc)1Vgl. https://www.denkmalpflege-bw.de/fileadmin/media/denkmalpflege-bw/geschichte-auftrag-struktur/firmenarchaeologie/hinweise/hinweise_csv.pdf?

Explorative Datenanalyse in OpenRefine:

  • Erstellen eines Projekts aus einer CSV-Datei.
  • Sortieren nach verschiedenen Kriterien.
  • Suchen und Filtern über verschiedene Facetten.

Einfache Datentransformationen in OpenRefine:

  • Aufspalten von Straße, Hausnr. in zwei separate Spalten.
  • Aufspaltung von Vornamen mehrerer Personen (Albert und Alfred bzw. Anna und Else) in Mehrfachwerte („Multi-valued cell”).
  • Suche nach Mustern und Korrelationen, z. B. zwischen Vornamen, Berufen und Bezirken.

Quellen‑ und Datenkritik:
Das jüdische Adressbuch für Groß-Berlin bietet gut 70.000 Adressdatensätze für ca. 170.000 Jüdinnen und Juden. Woher stammt dieser Unterschied? Zu welchen Verzerrungen und Lehrstellen führt das Vorgehen der Herausgeber des gedruckten Bandes? Wie erfolgte der Prozess der „Datifizierung” vom gedruckten Band zur CSV-Datei? Welche Entscheidungen wurden bei der Strukturierung der Einträge getroffen; welche OCR‑ und Druckfehler können wir über „Cluster”-Bildung von Straßen‑ oder Personennamen im Datensatz finden und bereinigen?

Datenschutz und Datenethik:
Datenschutz ist ein in der zweiten Hälfte des 20. Jahrhunderts vor dem Hintergrund der zunehmenden Computerisierung der Gesellschaft entstandener Begriff. Die mit systematischen Auflistungen wie in diesem Adressbuch verbundenen Ängste sind jedoch älter und werden im bereits erwähnten Vorwort auch direkt angesprochen: „Es wird gewiß auch einzelne Juden geben, die sich gegen ein jüdisches Adreßbuch wehren, weil sie nicht wünschen, sich gedruckt als Juden bezeichnet zu sehen. […]
Wir glauben auch nicht, daß es irgendeine Vernunft hätte, sein Judentum zu verstecken, und abgesehen davon, daß ein solches Versteckspielen unwürdig wäre, ist es auch sinnlos und töricht.”2Gemäß dem Vorwort der zweiten Auflage war das Vorhaben weniger kontrovers als erwartet: „Das vergangene Jahr hat erwiesen, daß wir den Widerspruch überschätzt, die Zustimmung dagegen unterschätzt haben. Es waren nur ganz wenige Kreise, gering an Zahl, die den Gedanken, welchen das Werk sein Entstehen verdankt, überhaupt bestritten.” https://nbn-resolving.org/urn:nbn:de:kobv:109-1-2414417/fragment/page=9 Mit Blick auf die nur wenige Jahre danach einsetzende Ausgrenzung, Vertreibung und Vernichtung der im Adressbuch genannten Personen kann der für die digitalen Geisteswissenschaften charakteristische Umgang mit Auflistungen verschiedenster Art thematisiert und problematisiert werden:

„Ich finde es grauenhaft, dass jemand im Deutschland des 21. Jahrhunderts Listen macht. Wir haben im 20. Jahrhundert genug von deutschen Listen gesehen. Nicht nur in der Nazi-Zeit, sondern auch in der DDR. Im Deutschland des 21. Jahrhunderts sollte es ein Listenverbot geben. Listen sind gefährlich. Künstlerisch, politisch und gesellschaftlich.”

(Barrie Kosky)3Berliner Zeitung, 10.1.2022, https://www.berliner-zeitung.de/kultur-vergnuegen/debatte/barrie-kosky-mir-soll-kein-nicht-jude-mehr-sagen-was-antisemitisch-ist-li.204685

Voraussetzungen und Tools

● OpenRefine: https://openrefine.org/

Vorkenntnisse

Für die Analyse und Bearbeitung von CSV-Dateien in OpenRefine kann auf eine Reihe von Tutorials zurückgegriffen werden.

Tutorials

Vorbereitung

  • Ausführung der von den Lernenden notwendigen, vorbereitenden Schritte für die nachfolgende Arbeit mit dem Datensatz (z. B. Download und Einrichtung notwendiger Software, Tutorials anschauen etc.)
  • OpenRefine herunterladen und installieren: https://openrefine.org/download

Endnoten

Zitierweise

Burckhardt, Daniel. 2025. „Exploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/lehrszenarios/lehrszenario-zur-vermittlung-von-exploration-und-transformation-strukturierter-daten-sowie-heuristischer-analyse-zur-erkennung-von-mustern-und-korrelationen/