AbschnittAnwendungsbeispiele: Nachnutzung

Anwendungsbeispiele: Nachnutzung

Interview mit Prof. Dr. Stefan Schmunk über Nachnutzung von Forschungsdaten

Als Audio

QUELLE: Interview zur Nachnutzung von Forschungsdaten mit Prof. Dr. Stefan Schmunk, lizenziert unter CC BY-NC-ND 4.0.

Als Transkript

Jacob B.: Lieber Stefan, vielen Dank, dass du dir Zeit genommen hast für unser Interview, auch zum Thema Digitales Arbeiten in den Geschichtswissenschaften mit dem Fokus auf deinem Projekt Bomber’s Baedeker. Es würde mich freuen, wenn du dich vielleicht kurz selbst vorstellen könntest.

Stefan Schmunk: Hi, mein Name ist Stefan Schmunk. Ich bin von Hause aus Historiker, Politologe und Informationswissenschaftler und bin hier an der Hochschule Darmstadt seit mittlerweile sieben Jahren, seit 2018 auf einer Professur für Informationswissenschaft und Bibliothekswissenschaften.

Jacob B.: Vielen Dank. Vielleicht gleich die erste Frage. Kannst du uns kurz dein Projekt vorstellen und auch sagen, was speziell der digitale Anteil daran war?

Stefan Schmunk: Wir haben vor, ja eigentlich vor der Pandemie, also vor sieben, acht Jahren per Zufall durch die Leiterin der wissenschaftlichen Bibliothek des Instituts für Europäische Geschichte in Mainz den Bomber’s Baedeker entdeckt. Und in Deutschland ist das eine der wenigen Bibliotheken, die die beiden Bände noch im Original besitzen, aus dem Jahr 1944.

Und gemeinsam mit Thorsten Wübbener, dem Leiter der DH-Abteilung in Mainz, hatten wir uns überlegt, das ist so ein toller Bestand, der weltweit eigentlich gar nicht zugänglich ist digital, dass wir gemeinsam mit der Universitätsbibliothek der Uni Mainz diesen Baedeker digitalisiert haben und zugleich aber uns einfach gefragt haben – ich muss kurz ausholen an der Stelle, was ist überhaupt der Baedeker?

Bomber’s Baedeker ist kein Reiseführer, wie der Name vielleicht nahelegen würde. Bomber’s Baedeker ist eine Aufstellung der Royal Air Force und des Foreign Office Großbritanniens während des Zweiten Weltkrieges über die zentralen strategischen Ziele für die Royal Air Force während des Zweiten Weltkrieges im Deutschen Reich. Ungefähr 400 Städte sind dort verzeichnet und diese Städte sind nicht nur verzeichnet als Namen oder auf einer Landkarte, sondern es gibt ganz konkrete Informationen darüber, welche Industriebetriebe in diesen Städten existierten.

Das Faszinierende aus der historischen Perspektive daran ist, dass die Alliierten, insbesondere Großbritannien, ganz viele Informationen über Deutschland hatten zu dem Zeitpunkt, weil die Brandversicherungsakten aus dem Deutschen Reich Mitte der 30er Jahre an britische Rückversicherungen gingen und dementsprechend man ganz genau wusste, wie die Hausstruktur in allen Städten und Dörfern des Deutschen Reiches waren, ob die Gebäude mit Ziegeln gebaut waren, ob es Fachwerk war, ob es Lehmbauten waren, wie die Dachstrukturen waren, ob es Holzaufbauten gab etc. Also eine faszinierende Informationsflut über die urbanen Zentren des Deutschen Reiches, gepaart mit den Straßen- und Ortsangaben von dort ansässigen Unternehmen. Das kombiniert mit Geheimdienstinformationen während des Zweiten Weltkrieges. Eine Reihe von Unternehmen gingen aufgrund des Bombenkriegs dann aus den Städten raus, wurden ausgelagert oder entwickelten sich. All das findet sich in diesem Bomber’s Baedeker und deswegen ist es eben nicht als Reiseführer zu verstehen, sondern eigentlich aus einer wirtschaftspolitischen Perspektive echt faszinierend. Man hat den Überblick über den Stand des Wissens, was die Alliierten 1944 über das Deutsche Reich wussten und über die Industrie.

Das ist so ein für uns spannender Bestand gewesen, wo wir sagten, Digitalisierung reicht nicht aus. Da sind ganz viele Informationen drin von Straßennamen, von Unternehmensnamen, von Größenangaben oder eben auch von Produktionstypen, die dort hinterlegt sind, wo wir einfach sagten, naja, wir müssen es nicht nur digital erschließen, sondern auch auf eine gewisse Art und Weise eben auch maschinenlesbar und interpretierbar machen, weil so viel Substanz und Material einfach in einer Dichte drin steckt, die man in dieser Form eigentlich kaum findet, auch für die Epoche. Das vielleicht als kurzer, wirklich ganz kurzer Abriss dazu.

Jacob B.: Genau, aber das wäre nämlich auch so ein bisschen die Frage nach dem Mehrwert. Was war denn wirklich nur möglich, weil du eben digital gearbeitet hast, beziehungsweise welche Vorteile, sagen wir mal, von der wissenschaftlichen Erschließung haben sich daraus denn ergeben?

Stefan Schmunk: Klar, also das Problem bei Digitalisierung ist oftmals, dass wir eigentlich immer dann nur so digitale Repräsentationen des analogen Materials vorliegen haben. Und das ist dann, naja, ein PDF ist nichts anderes als eine kopierte Seite, bloß als Datei. Und der Mehrwert besteht genau darin, was ich eben schon beschrieben habe. Wir haben eben nicht nur ein PDF, nicht nur ein Bilddigitalisat vorliegen, sondern wir haben eigentlich den Text und die Inhalte ausgezeichnet. Das Spannende für uns eben auch aus einer Lehrperspektive, das war ein Lehrforschungsprojekt im ersten Schritt mit Studierenden an der Hochschule Darmstadt, wo wir sagten, naja, dann lasst uns doch mal bitte probieren, die OCR zu verbessern. Dann lasst uns mal bitte probieren, die Fehlerrate zu reduzieren. Und lasst uns im nächsten Schritt auch überlegen, wie können wir eigentlich maschinell auf einer Code-Basis, naja, eine Verbesserung des Qualitätsgrades herstellen.

Es sind unter anderem Geokoordinaten angegeben. Und dann ist vollkommen klar, wenn da eine Ziffer falsch ist, ist der Fehler ganz eklatant. Und man findet auf einmal nicht mehr Mannheim, was geografisch dann am Rhein liegt, sondern Mannheim ist Minsk. Und man hat durch den Zahlendreher eben eine komplett andere Geokoordinate an dieser Stelle. Und der Mehrwert, um auf deine Frage nochmal eingangs einzugehen, ist, dass eigentlich erst jetzt auch so eine richtige Interpretierbarkeit des Materials möglich ist, was im Vorfeld gar nicht machbar wäre, weil man müsste eigentlich Tage, Wochen, Monate, wenn nicht sogar Jahre über großen Plänen hängen, um all die Informationen einzutragen und einen Abgleich dann zu machen. Also insofern, das Digitale eigentlich als Tor in die Analyse überhaupt per se.

Jacob B.: Ihr habt euch dazu bewusst entschieden, die Forschungsdaten auch als Testfall, sage ich mal, zur Verfügung zu stellen. Hast du denn jetzt, wenn man vom Bomber’s Baedeker weggeht, in anderen eigenen Projekten auch schon selbst Forschungsdaten von anderen nachgenutzt, wo du sagst, na gut, das hat sich gelohnt, dass die sich diesem Aufwand gestellt haben und die Daten zur Verfügung gestellt haben, weil ich konnte jetzt persönlich davon profitieren?

Stefan Schmunk: Spannende Frage, ja. Und ja, es mag ein Beispiel geben, ein Projekt, das ich mit Frau Geschade von Hamburg, Günther Nier, Potsdam, seit mittlerweile, ich überlege gerade, sechs Jahren betreibe, im weitesten Sinne Forschungsdaten: Publikation von Stellenausschreibungen im deutschsprachigen Raum. Jetzt nicht unbedingt Daten, von denen man glauben würde, dass sie wirklich relevant sind, aber es sind relevante Daten, weil man darüber relativ gut erkennen kann, wie sich eine Berufsstruktur, eine Berufslandschaft im Bereich der Informationswissenschaft, Digital Humanities und der Bibliothekswissenschaft eigentlich verändert und wir darüber probieren, einfach die Daten zu zu analysieren, um eben Trends zu identifizieren und Veränderungen zu identifizieren. Das sind Daten, die eben von, naja, veröffentlicht wurden, die wir jetzt nachnutzen und die wir ganz, ja, dezidiert nachnutzen können. Das ist ein Beispiel, ein anderes Beispiel und das kennt, glaube ich, jeder: Natürlich die Publikation von Bibliotheken, eben Bestände aus dem 16., 17., 18., 19. Jahrhundert digitalisiert oder, die zum Teil auch in XML vorliegen und die darüber halt verwendet werden können. Oder ein drittes Beispiel, ein wundervolles Projekt, das von Eva Wyss vor über 30 Jahren oder bald 30 Jahren initiiert wurde, das sogenannte Liebesbriefarchiv, bei dem Menschen Liebesbriefe spenden von sich selber, von ihren Angehörigen oder die sie vielleicht auf dem Dachboden oder in der Schublade gefunden haben und mit denen eben nicht nur philologische, germanistische, sprachwissenschaftliche Forschung betrieben wird, sondern natürlich auch eine digitale Forschung betrieben wird.

Ich glaube, das wird sich verstärken, also dass mehr digitale Daten nachgenutzt werden mit all der Problematik, die dahinter steckt.

Jacob B.: Genau, das wäre dann die Frage dazu: Welche Herausforderungen haben sich für dich ganz konkret bei der Datenbeschaffung und der Arbeit mit nachgenutzten Daten bereits ergeben? Beispielhaft seien Recherchemöglichkeiten, Zugangsbeschränkungen, das ganze Thema Lizenzen natürlich, Datenqualität, Datenkompatibilität, Datenumfang, all diese Probleme genannt. Wie sind denn da deine Erfahrungen?

Stefan Schmunk: Du hast die zentralen Pain-Punkte eben schon benannt. Das sind genau die. Das Problem ist in der Regel natürlich dann am häufigsten, da kommen wir wieder zur Frage nach der Quellenkritik an der Stelle. Aus einer wissenschaftlichen Methodik ist es relevant zu wissen, in welchem Entstehungskontext diese Daten generiert wurden, in welchem Entstehungskontext Quellen stehen und die daraus resultierenden Daten dann eigentlich analysiert werden können. Koselleck hat vom Vetorecht der Quellen gesprochen an der Stelle, dem wir als Primat folgen, als HistorikerInnen, und versuchen, das abzubilden. Ich glaube, das ist eine der größten Herausforderungen, eben zu verstehen, wie andere Daten generiert haben, erhoben haben, um diese überhaupt interpretieren und analysieren zu können. Und eine zweite Herausforderung ist, und das ist echt kurios eigentlich, wir leben in einem total digitalisierten Zeitalter. Wir können uns alle irgendwie das alltägliche Leben nicht mehr ohne digitale Endgeräte oder auch digitale Daten vorstellen. Und gerade für die Geisteswissenschaften gibt es nur so wenige digitale Daten. Das heißt, der Zugriff darauf ist so enorm beschränkt. Die Verzeichnisse deutschsprachiger Drucke des 16., 17., 18. Jahrhunderts, also eigentlich die Idee, kollaborativ von wissenschaftlichen Bibliotheken eine deutsche Nationalbibliografie nachzubilden, da ist gerade mal ungefähr die Hälfte digitalisiert. Wir reden nur über Retro-Digitalisiert. Noch nicht maschinell interpretierbar. Und das heißt, das ist ein ganz elementares und grundlegendes Problem. Wir haben eigentlich nur ganz wenig Datenmaterial. Das bedeutet eigentlich für alle Forschenden, dass sie in der Regel ihre Daten, ihre Quellen digital vorbereiten, präprozessieren müssen, aufbereiten müssen, digitalisieren müssen, damit sie überhaupt damit arbeiten können. Und das ist durchaus eine zentrale Herausforderung.

Natürlich der dritte Punkt ist, also methodisch-analytisch ist der Erste, Zweiter sozusagen, was ist überhaupt verfügbar momentan? Und ich mag einen dritten noch aufmachen, politische Rahmenumstände. Ich hatte es eben gerade bei einer anderen Frage schon angedeutet gehabt. Wir leben in einer Epoche, wo es eben, glaube ich, nicht mehr selbstverständlich ist, dass es einen freien und offenen Zugang zu Daten gibt. Das wird sicherlich in Zukunft auch ein Problem sein, nämlich zu gewährleisten unter der Prämisse, dass Daten, Quellen und Wissen allen Menschen auf diesem Planeten gehören. Und sie auch davon den Nutzen haben und diese verwenden dürfen, dass das durchaus schwieriger wird. Und wir eben nicht mehr sicher sein können, dass das Material eigentlich auf Dauer dann auch zugänglich ist, dass wir darauf zugreifen können und dass wir eigentlich so diese fluide, ganz sanfte, digitale Materialität verlieren können, wenn irgendjemand einen Schalter ausdrückt oder wenn irgendein Hackerangriff eine Einrichtung lahmlegt. Und auch das ist eine Gefahr und das ist ein Thema, glaube ich, mit dem wir uns momentan noch gar nicht so arg intensiv beschäftigt haben.

Und ich erlaube mir einen vierten Punkt. These: Nachfolgende Generationen mögen das prüfen, ob ich recht lag oder nicht. Ich bin der festen Überzeugung, dass dieses 21. Jahrhundert ein Dark Age wird. Ein Dark Age wird, weil viele der digitalen Daten, die wir alltäglich generieren, eigentlich nicht genutzt werden können. Historiker in Generationen in Zukunft mit Blick auf dieses 21. Jahrhundert ganz großartige Probleme vor sich haben werden. Sie werden nämlich nur Fragmente des alltäglichen Kulturlebens und des Miteinanders haben. Eine Kultur- und Wissenschafts- und auch Wirtschafts- und Sozialgeschichte des 21. Jahrhunderts wird einfach schwierig zu schreiben sein, weil viel Material nicht mehr da ist, weil es Unternehmen gehört, die definitiv entscheiden können, der Schalter ist aus und wir geben es nicht weiter. Also du siehst, ich finde, das ist gar nicht so einfach zu beantworten, diese Nachnutzung oder diese Thematik, sondern da kommen durchaus eine Reihe von Facetten einfach nochmal dazu.

Jacob B.: Das ist ein sehr breites Feld, auf jeden Fall. Zur Abschlussfrage: Du hast ja gerade beschrieben, wie du an vielen Stellen schon Daten auch selbst nachgenutzt hast. Wie hat sich denn dadurch, sagen wir mal, deine eigene Einstellung verändert zur Bereitstellung von Forschungsdaten? Ich meine, du hast das schon ausgeführt, du hast das auch im Bomber’s Baedeker, da war das ja ganz bewusst deine Entscheidung. Hat sich da deine eigene Perspektive nochmal geändert, sowohl, was das Grundsätzliche angeht, als auch, sagen wir mal, die praktischen Fragen? Also z. B. was muss ich denn wirklich machen, damit das für andere auch sinnvoll nachnutzbar ist? Was waren meine eigenen Pain-Points? Was habe ich daraus gelernt? Wie sollte ich es vielleicht besser bereitstellen, damit der Nächste diese Pain-Points nicht hat?

Stefan Schmunk: Ich glaube, dass es ganz wichtig ist, Materialien, Quellen, Daten, Arbeitsprozesse, den Code bestmöglich zu beschreiben und zugleich aber auch ganz pragmatische Entscheidungen an bestimmten Punkten zu treffen, nämlich die Dichte der Beschreibung ist natürlich endlos steigerbar. Aber es gibt eine Reihe von Standards, die gut sind und die in der Regel auch ausreichen. Wir werden nicht vollumfängliche Beschreibungen haben aller Kontexte und können das, glaube ich, auch gar nicht leisten, weil es eigentlich auch nicht Gegenstand von Forschung ist an dieser Stelle. Aber einen Minimalstandard zu realisieren und das auch zu akzeptieren, das es Teil der Forschung ist, das ist ein ganz wichtiger Punkt. Weil es kostet Zeit und es kostet Energie und es ist nicht nur mit einem Fingersnip getan, sondern man muss es bewusst machen. Und der zweite Punkt ist, es gibt glaube ich in Zukunft keine Forschung mehr, die nicht digital sein kann. Das liegt unter anderem auch einfach daran, dass ganz viele Publikationen, ganz viele Archivalien, ganz viele Quellen, ganz viele Daten, ganz viele Collections und Sammlungen in Zukunft einfach vor allem digital zugänglich sind. Und wir müssen dafür Sorge tragen, dass möglichst schnell, möglichst viel digital zugänglich sein wird, weil wenn wir uns nicht darum kümmern als Gemeinschaft der Forschenden, wird es, glaube ich, durch andere eben nicht adressiert und nicht übernommen.

Und die Frage wird am Ende sein, was geht möglicherweise aus dem Blick verloren, weil es eben nicht mehr digital zugänglich ist oder noch nicht digital zugänglich ist. Umso wichtiger ist es, dass man hier einfach eine gewisse Geschwindigkeit aufnimmt und auch verdeutlicht gegenüber politischen Entscheidern, gegenüber der Gesellschaft, wie wichtig es ist, auch einen methodisch reflektierten Umgang mit der Digitalität zu erleben.

Jacob B.: Ich glaube, das ist ein ganz gutes Schlusswort. Vielen Dank für das Interview.

Stefan Schmunk: Ich danke dir ganz herzlich, Jacob.

Weitere Anwendungsbeispiele der Nachnutzung von Forschungsdaten in der Geschichtswissenschaft:

Digital Atlas of European Histography: https://daeh.uni-trier.de/. Der Digital Atlas of European Histography ist die digitale Nachnutzung'Eine Nachnutzung, oftmals auch Sekundärnutzung genannt, befragt bereits erhobene und veröffentlichte Forschungsdatensätze erneut mit dem Ziel, andere Erkenntnisse, möglicherweise aus einer neuen oder unterschiedlichen Perspektive, zu erhalten. Die Aufbereitung von Forschungsdaten für eine Nachnutzung erfordert einen erheblich höheren Anonymisierungs-, Aufbereitungs- und Dokumentationsaufwand als die bloße Archivierung im Sinne von Datenspeicherung.' (Data Affairs, Glossar) Weiterlesen eines gedruckten Werkes zur historischen Entwicklung der Geschichtswissenschaft in Europa in Form einer interaktiven Karte, eine Vorstellung des Projektes im Kontext von Forschungsdatenmanagement findet sich unter https://www.youtube.com/watch?v=UninW0TuuTY.
Die Daten aus der Regesta Imperii (https://www.regesta-imperii .de/unternehmen.html) bieten vielfältige Nachnutzungsszenarien. Für das Projekt Imperii-Viz (https://github.com/danielbaak/imperii-viz; https://codingdavinci.de/de/projekte/imperii-vis) wurden Daten bspw. so aufbereitet, dass die Daten zu den einzelnen Personen auf einer Karte in Form einer Heatmap visualisiert werden können.
Mit den Daten der Regesta Imperii können aber auch Netzwerkanalysen (https://mittelalter.hypotheses.org/5995#footnote_3_5995) durchgeführt werden u. v. m.
Nachnutzung von Interviews aus der Digital Oral History-Sammlung (https://www.oral-history.digital/) in Form eines Lernmoduls für die schulische Bildung: https://zeugendershoah.lernen-mit-interviews.de/. Zugriff auf die Inhalte beider Seiten kann nur nach Registrierung erfolgen, da die Persönlichkeitsrechte der interviewten Zeitzeugen gewahrt werden müssen.
Nachnutzung von Daten der deutschen Auswandererbriefsammlung (https://www.auswandererbriefe.de/) für den schulischen Deutsch- und Geschichtsunterricht Klassen 5 – 8: https://www.auswandererbriefe.de/unterricht.html.
Das Online-Archiv „Zwangsarbeit 1939–1945″ (https://www.zwangsarbeit-archiv.de/) umfasst knapp 600 lebensgeschichtliche Audio- und Video-Interviews mit ehemaligen Zwangsarbeiter*innen aus 26 Ländern und ist ein Beispiel für die Nachnutzung von Oral-History-Interviews in Wissenschaft und Bildung. Die Interviews wurden transkribiert, erschlossen und für unterschiedliche Zwecke weiterverwendet: So entstanden auf Basis der Interviews Bildungsmaterialien für den Schulunterricht, die seit 2016 als Online-Anwendung verfügbar sind (https://www.bpb.de/themen/nationalsozialismus-zweiter-weltkrieg/ns-zwangsarbeit/). Zugang zu den Interviews ist nur nach Registrierung möglich, da die Persönlichkeitsrechte der Interviewten gewahrt werden müssen.
FactGrid (https://database.factgrid.de) ist eine kollaborative Wikibase-Datenbank für die historische Forschung, die projektübergreifende Nachnutzung und Vernetzung von Forschungsdaten ermöglicht. Statt dass jedes Forschungsprojekt eine eigene Plattform und Datenbank aufbaut – auf der die Daten dann mitsamt der Software veralten –, arbeiten auf FactGrid verschiedene Projekte auf derselben Infrastruktur und können gegenseitig auf die Daten der anderen zugreifen. Ein anschauliches Beispiel dafür ist das Zusammenwachsen der Illuminaten- und Freimaurerforschung auf der Plattform: Daten aus der Forschung mehrerer Wissenschaftler*innen über Jahrzehnte flossen zusammen, und das Illuminatenprojekt sollte gezielt mit dem Freimaurereiprojekt sowie mit Normdaten der GND verknüpft werden, um Personendatensätze gemeinsam weiterzuentwickeln, anstatt dieselbe Arbeit mehrfach zu leisten. Das Grundprinzip wird in diesem Wikimedia-Blogbeitrag erklärt: https://blog.wikimedia.de/2018/08/31/many-faces-of-wikibase-die-geschichte-der-illuminaten-als-datenbank-erschliessen/; ein konkreter Einblick in die Datenlage und die Vernetzungsideen findet sich im FactGrid-Blog: https://blog.factgrid.de/archives/1049. FactGrid ist seit 2023 offizielles Repositorium'Ein Repositorium bildet einen Ort der Aufbewahrung wissenschaftlicher Dokumente. In Online-Repositorien werden Publikationen digital gespeichert, verwaltet und mit persistenten Identifikatoren versehen. Die Katalogisierung vereinfacht die Suche und Nutzung von Publikationen und Autor*innen. In den meisten Fällen sind Dokumente in Online-Repositorien uneingeschränkt und offen zugänglich (Open Access).' (Data Affairs, Glossar) Weiterlesen im Rahmen von NFDI4Memory.

Suche in HISTOFOX

Anwendungsbeispiele: Nachnutzung

Interview mit Prof. Dr. Stefan Schmunk über Nachnutzung von Forschungsdaten