Logo

Suche in HISTOFOX

LehrszenarioExploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen

Exploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen

Methoden

  • Exploration und Transformation strukturierter Daten
  • Heuristische Analyse zur Erkennung von Mustern und Korrelationen
  • Formulierung und Prüfung von Hypothesen und weiterführenden Fragestellungen
  • Erkennung und Bereinigung von OCR‑ und Druckfehlern

Kompetenzen und Lernziele

Was ist eine CSV-Datei? Wie gehe ich mit unterschiedlichen Trennzeichen zwischen Datenfeldern (Spalten) und Datensätzen (Zeilen) sowie unterschiedlichen Zeichenkodierungen um? Wie öffne ich eine solche Datei in gängigen Office-Programmen (MS Excel, LibreOffice Calc)? Vgl. https://www.denkmalpflege-bw.de/fileadmin/media/denkmalpflege-bw/geschichte-auftrag-struktur/firmenarchaeologie/hinweise/hinweise_csv.pdf

Explorative Datenanalyse in OpenRefine:
Erstellen eines Projekts aus einer CSV-Datei. Sortieren nach verschiedenen Kriterien. Suchen und Filtern über verschiedene Facetten.

Einfache Datentransformationen in OpenRefine:
Aufspalten von Straße, Hausnr. in zwei separate Spalten. Aufspaltung von Vornamen mehrerer Personen (Albert und Alfred bzw. Anna und Else) in Mehrfachwerte („Multi-valued cell”). Suche nach Mustern und Korrelationen, z. B. zwischen Vornamen, Berufen und Bezirken.

Quellen‑ und Datenkritik:
Das jüdische Adressbuch für Groß-Berlin bietet gut 70.000 Adressdatensätze für ca. 170.000 Jüdinnen und Juden. Woher stammt dieser Unterschied? Zu welchen Verzerrungen und Lehrstellen führt das Vorgehen der Herausgeber des gedruckten Bandes? Wie erfolgte der Prozess der „Datifizierung” vom gedruckten Band zur CSV-Datei. Welche Entscheidungen wurden bei der Strukturierung der Einträge getroffen; welche OCR‑ und Druckfehler können wir über „Cluster”-Bildung von Straßen‑ oder Personennamen im Datensatz finden und bereinigen?

Datenschutz und Datenethik:
Datenschutz ist ein in der zweiten Hälfte des 20. Jahrhunderts vor dem Hintergrund der zunehmenden Computerisierung der Gesellschaft entstandener Begriff. Die mit systematischen Auflistungen wie in diesem Adressbuch verbundenen Ängste sind jedoch älter und werden im bereits erwähnten Vorwort auch direkt angesprochen: „Es wird gewiß auch einzelne Juden geben, die sich gegen ein jüdisches Adreßbuch wehren, weil sie nicht wünschen, sich gedruckt als Juden bezeichnet zu sehen. […]
Wir glauben auch nicht, daß es irgendeine Vernunft hätte, sein Judentum zu verstecken, und abgesehen davon, daß ein solches Versteckspielen unwürdig wäre, ist es auch sinnlos und töricht.”1Gemäß dem Vorwort der zweiten Auflage war das Vorhaben weniger kontrovers als erwartet: „Das vergangene Jahr hat erwiesen, daß wir den Widerspruch überschätzt, die Zustimmung dagegen unterschätzt haben. Es waren nur ganz wenige Kreise, gering an Zahl, die den Gedanken, welchen das Werk sein Entstehen verdankt, überhaupt bestritten.” https://nbn-resolving.org/urn:nbn:de:kobv:109-1-2414417/fragment/page=9 Mit Blick auf die nur wenige Jahre danach einsetzende Ausgrenzung, Vertreibung und Vernichtung der im Adressbuch genannten Personen kann der für die digitalen Geisteswissenschaften charakteristische Umgang mit Auflistungen verschiedenster Art thematisiert und problematisiert werden: „Ich finde es grauenhaft, dass jemand im Deutschland des 21. Jahrhunderts Listen macht. Wir haben im 20. Jahrhundert genug von deutschen Listen gesehen. Nicht nur in der Nazi-Zeit, sondern auch in der DDR. Im Deutschland des 21. Jahrhunderts sollte es ein Listenverbot geben. Listen sind gefährlich. Künstlerisch, politisch und gesellschaftlich.” Barrie Kosky, in: Berliner Zeitung, 10.1.2022, https://www.berliner-zeitung.de/kultur-vergnuegen/debatte/barrie-kosky-mir-soll-kein-nicht-jude-mehr-sagen-was-antisemitisch-ist-li.204685

Voraussetzungen und Tools

● OpenRefine: https://openrefine.org/

Vorkenntnisse

Für die Analyse und Bearbeitung von CSV-Dateien in OpenRefine kann auf eine Reihe von Tutorials zurückgegriffen werden.

Tutorials

Vorbereitung

  • Ausführung der von den Lernenden notwendigen, vorbereitenden Schritte für die nachfolgende Arbeit mit dem Datensatz (z. B. Download und Einrichtung notwendiger Software, Tutorials anschauen etc.)
  • OpenRefine herunterladen und installieren: https://openrefine.org/download

Endnoten

  • 1
    Gemäß dem Vorwort der zweiten Auflage war das Vorhaben weniger kontrovers als erwartet: „Das vergangene Jahr hat erwiesen, daß wir den Widerspruch überschätzt, die Zustimmung dagegen unterschätzt haben. Es waren nur ganz wenige Kreise, gering an Zahl, die den Gedanken, welchen das Werk sein Entstehen verdankt, überhaupt bestritten.” https://nbn-resolving.org/urn:nbn:de:kobv:109-1-2414417/fragment/page=9

Zitierweise

Burckhardt, Daniel. 2025. „Exploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/lehrszenarios/lehrszenario-zur-vermittlung-von-exploration-und-transformation-strukturierter-daten-sowie-heuristischer-analyse-zur-erkennung-von-mustern-und-korrelationen/