Exploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen
Inhaltsverzeichnis
Methoden
- Exploration und Transformation strukturierter Daten
- Heuristische Analyse zur Erkennung von Mustern und Korrelationen
- Formulierung und Prüfung von Hypothesen und weiterführenden Fragestellungen
- Erkennung und Bereinigung von OCR‑ und Druckfehlern
Kompetenzen und Lernziele
Was ist eine CSV-Datei? Wie gehe ich mit unterschiedlichen Trennzeichen zwischen Datenfeldern (Spalten) und Datensätzen (Zeilen) sowie unterschiedlichen Zeichenkodierungen um? Wie öffne ich eine solche Datei in gängigen Office-Programmen (MS Excel, LibreOffice Calc)? Vgl. https://www.denkmalpflege-bw.de/fileadmin/media/denkmalpflege-bw/geschichte-auftrag-struktur/firmenarchaeologie/hinweise/hinweise_csv.pdf
Explorative Datenanalyse in OpenRefine:
Erstellen eines Projekts aus einer CSV-Datei. Sortieren nach verschiedenen Kriterien. Suchen und Filtern über verschiedene Facetten.
Einfache Datentransformationen in OpenRefine:
Aufspalten von Straße, Hausnr. in zwei separate Spalten. Aufspaltung von Vornamen mehrerer Personen (Albert und Alfred bzw. Anna und Else) in Mehrfachwerte („Multi-valued cell”). Suche nach Mustern und Korrelationen, z. B. zwischen Vornamen, Berufen und Bezirken.
Quellen‑ und Datenkritik:
Das jüdische Adressbuch für Groß-Berlin bietet gut 70.000 Adressdatensätze für ca. 170.000 Jüdinnen und Juden. Woher stammt dieser Unterschied? Zu welchen Verzerrungen und Lehrstellen führt das Vorgehen der Herausgeber des gedruckten Bandes? Wie erfolgte der Prozess der „Datifizierung” vom gedruckten Band zur CSV-Datei. Welche Entscheidungen wurden bei der Strukturierung der Einträge getroffen; welche OCR‑ und Druckfehler können wir über „Cluster”-Bildung von Straßen‑ oder Personennamen im Datensatz finden und bereinigen?
Datenschutz und Datenethik:
Datenschutz ist ein in der zweiten Hälfte des 20. Jahrhunderts vor dem Hintergrund der zunehmenden Computerisierung der Gesellschaft entstandener Begriff. Die mit systematischen Auflistungen wie in diesem Adressbuch verbundenen Ängste sind jedoch älter und werden im bereits erwähnten Vorwort auch direkt angesprochen: „Es wird gewiß auch einzelne Juden geben, die sich gegen ein jüdisches Adreßbuch wehren, weil sie nicht wünschen, sich gedruckt als Juden bezeichnet zu sehen. […]
Wir glauben auch nicht, daß es irgendeine Vernunft hätte, sein Judentum zu verstecken, und abgesehen davon, daß ein solches Versteckspielen unwürdig wäre, ist es auch sinnlos und töricht.”1Gemäß dem Vorwort der zweiten Auflage war das Vorhaben weniger kontrovers als erwartet: „Das vergangene Jahr hat erwiesen, daß wir den Widerspruch überschätzt, die Zustimmung dagegen unterschätzt haben. Es waren nur ganz wenige Kreise, gering an Zahl, die den Gedanken, welchen das Werk sein Entstehen verdankt, überhaupt bestritten.” https://nbn-resolving.org/urn:nbn:de:kobv:109-1-2414417/fragment/page=9 Mit Blick auf die nur wenige Jahre danach einsetzende Ausgrenzung, Vertreibung und Vernichtung der im Adressbuch genannten Personen kann der für die digitalen Geisteswissenschaften charakteristische Umgang mit Auflistungen verschiedenster Art thematisiert und problematisiert werden: „Ich finde es grauenhaft, dass jemand im Deutschland des 21. Jahrhunderts Listen macht. Wir haben im 20. Jahrhundert genug von deutschen Listen gesehen. Nicht nur in der Nazi-Zeit, sondern auch in der DDR. Im Deutschland des 21. Jahrhunderts sollte es ein Listenverbot geben. Listen sind gefährlich. Künstlerisch, politisch und gesellschaftlich.” Barrie Kosky, in: Berliner Zeitung, 10.1.2022, https://www.berliner-zeitung.de/kultur-vergnuegen/debatte/barrie-kosky-mir-soll-kein-nicht-jude-mehr-sagen-was-antisemitisch-ist-li.204685
Voraussetzungen und Tools
● OpenRefine: https://openrefine.org/
Vorkenntnisse
Für die Analyse und Bearbeitung von CSV-Dateien in OpenRefine kann auf eine Reihe von Tutorials zurückgegriffen werden.
Tutorials
- Einführungen in OpenRefine: https://librarycarpentry.github.io/lc-open-refine/ und https://fdmlab.landesarchiv-bw.de/workshop/openrefine-einsteiger/warum-openrefine/
- Fortgeschrittene Themen: https://fdmlab.landesarchiv-bw.de/workshop/openrefine-fortgeschrittene/warum-openrefine/
Vorbereitung
- Ausführung der von den Lernenden notwendigen, vorbereitenden Schritte für die nachfolgende Arbeit mit dem Datensatz (z. B. Download und Einrichtung notwendiger Software, Tutorials anschauen etc.)
- OpenRefine herunterladen und installieren: https://openrefine.org/download
Endnoten
- 1Gemäß dem Vorwort der zweiten Auflage war das Vorhaben weniger kontrovers als erwartet: „Das vergangene Jahr hat erwiesen, daß wir den Widerspruch überschätzt, die Zustimmung dagegen unterschätzt haben. Es waren nur ganz wenige Kreise, gering an Zahl, die den Gedanken, welchen das Werk sein Entstehen verdankt, überhaupt bestritten.” https://nbn-resolving.org/urn:nbn:de:kobv:109-1-2414417/fragment/page=9
Zitierweise
Burckhardt, Daniel. 2025. „Exploration und Transformation strukturierter Daten sowie heuristischer Analyse zur Erkennung von Mustern und Korrelationen“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/lehrszenarios/lehrszenario-zur-vermittlung-von-exploration-und-transformation-strukturierter-daten-sowie-heuristischer-analyse-zur-erkennung-von-mustern-und-korrelationen/
