Anwendungsbeispiele
Beispiel 1: Einsatz der CRedit-Taxonomie bei Publikationen
Mit der CRediT-Taxonomie kann genau festgelegt werden, welche Rolle und welchen Beitrag eine Person bei einer Forschungspublikation geleistet hat. Die CRediT-Taxonomie definiert hierfür 14 Rollen (vgl. https://credit.niso.org/)
Beispiel einer Umsetzung der CRediT-Taxonomie (im Workingpaper): https://zenodo.org/records/16812354
Beispiel 2: Auszug aus einem Interview mit Stefan Schmunk zum Bomber’s Baedeker, 2025
als Audio
Audio: Interviewauszug Stefan Schmunk zum Bomber’s Baedeker, 2025, lizenziert unter CC BY-NC-ND 4.0
als Transkript
Jacob B.: Lieber Stefan, vielen Dank, dass du dir Zeit genommen hast für unser Interview, auch zum Thema Digitales Arbeiten in den Geschichtswissenschaften mit dem Fokus auf deinem Projekt Bomber’s Baedeker. Es würde mich freuen, wenn du dich vielleicht kurz selbst vorstellen könntest.
Stefan Schmunk: Hi, mein Name ist Stefan Schmunk. Ich bin von Hause aus Historiker, Politologe und Informationswissenschaftler und bin hier an der Hochschule Darmstadt seit mittlerweile sieben Jahren, seit 2018 auf einer Professur für Informationswissenschaft und Bibliothekswissenschaften.
Jacob B.: Vielen Dank. Vielleicht gleich die erste Frage. Kannst du uns kurz dein Projekt vorstellen und auch sagen, was speziell der digitale Anteil daran war?
Stefan Schmunk: Wir haben vor, ja eigentlich vor der Pandemie, also vor sieben, acht Jahren per Zufall durch die Leiterin der wissenschaftlichen Bibliothek des Instituts für Europäische Geschichte in Mainz den Bomber’s Baedeker entdeckt. Und in Deutschland ist das eine der wenigen Bibliotheken, die die beiden Bände noch im Original besitzen, aus dem Jahr 1944.
Und gemeinsam mit Thorsten Wübbener, dem Leiter der DH-Abteilung in Mainz, hatten wir uns überlegt, das ist so ein toller Bestand, der weltweit eigentlich gar nicht zugänglich ist digital, dass wir gemeinsam mit der Universitätsbibliothek der Uni Mainz diesen Baedeker digitalisiert haben und zugleich aber uns einfach gefragt haben – ich muss kurz ausholen an der Stelle, was ist überhaupt der Baedeker?
Bomber’s Baedeker ist kein Reiseführer, wie der Name vielleicht nahelegen würde. Bomber’s Baedeker ist eine Aufstellung der Royal Air Force und des Foreign Office Großbritanniens während des Zweiten Weltkrieges über die zentralen strategischen Ziele für die Royal Air Force während des Zweiten Weltkrieges im Deutschen Reich. Ungefähr 400 Städte sind dort verzeichnet und diese Städte sind nicht nur verzeichnet als Namen oder auf einer Landkarte, sondern es gibt ganz konkrete Informationen darüber, welche Industriebetriebe in diesen Städten existierten.
Das Faszinierende aus der historischen Perspektive daran ist, dass die Alliierten, insbesondere Großbritannien, ganz viele Informationen über Deutschland hatten zu dem Zeitpunkt, weil die Brandversicherungsakten aus dem Deutschen Reich Mitte der 30er Jahre an britische Rückversicherungen gingen und dementsprechend man ganz genau wusste, wie die Hausstruktur in allen Städten und Dörfern des Deutschen Reiches waren, ob die Gebäude mit Ziegeln gebaut waren, ob es Fachwerk war, ob es Lehmbauten waren, wie die Dachstrukturen waren, ob es Holzaufbauten gab etc. Also eine faszinierende Informationsflut über die urbanen Zentren des Deutschen Reiches, gepaart mit den Straßen- und Ortsangaben von dort ansässigen Unternehmen. Das kombiniert mit Geheimdienstinformationen während des Zweiten Weltkrieges. Eine Reihe von Unternehmen gingen aufgrund des Bombenkriegs dann aus den Städten raus, wurden ausgelagert oder entwickelten sich. All das findet sich in diesem Bomber’s Baedeker und deswegen ist es eben nicht als Reiseführer zu verstehen, sondern eigentlich aus einer wirtschaftspolitischen Perspektive echt faszinierend. Man hat den Überblick über den Stand des Wissens, was die Alliierten 1944 über das Deutsche Reich wussten und über die Industrie.
Das ist so ein für uns spannender Bestand gewesen, wo wir sagten, Digitalisierung reicht nicht aus. Da sind ganz viele Informationen drin von Straßennamen, von Unternehmensnamen, von Größenangaben oder eben auch von Produktionstypen, die dort hinterlegt sind, wo wir einfach sagten, naja, wir müssen es nicht nur digital erschließen, sondern auch auf eine gewisse Art und Weise eben auch maschinenlesbar und interpretierbar machen, weil so viel Substanz und Material einfach in einer Dichte drin steckt, die man in dieser Form eigentlich kaum findet, auch für die Epoche. Das vielleicht als kurzer, wirklich ganz kurzer Abriss dazu.
Jacob B.: Genau, aber das wäre nämlich auch so ein bisschen die Frage nach dem Mehrwert. Was war denn wirklich nur möglich, weil du eben digital gearbeitet hast, beziehungsweise welche Vorteile, sagen wir mal, von der wissenschaftlichen Erschließung haben sich daraus denn ergeben?
Stefan Schmunk: Klar, also das Problem bei Digitalisierung ist oftmals, dass wir eigentlich immer dann nur so digitale Repräsentationen des analogen Materials vorliegen haben. Und das ist dann, naja, ein PDF ist nichts anderes als eine kopierte Seite, bloß als Datei. Und der Mehrwert besteht genau darin, was ich eben schon beschrieben habe. Wir haben eben nicht nur ein PDF, nicht nur ein Bilddigitalisat vorliegen, sondern wir haben eigentlich den Text und die Inhalte ausgezeichnet. Das Spannende für uns eben auch aus einer Lehrperspektive, das war ein Lehrforschungsprojekt im ersten Schritt mit Studierenden an der Hochschule Darmstadt, wo wir sagten, naja, dann lasst uns doch mal bitte probieren, die OCR zu verbessern. Dann lasst uns mal bitte probieren, die Fehlerrate zu reduzieren. Und lasst uns im nächsten Schritt auch überlegen, wie können wir eigentlich maschinell auf einer Code-Basis, naja, eine Verbesserung des Qualitätsgrades herstellen.
Es sind unter anderem Geokoordinaten angegeben. Und dann ist vollkommen klar, wenn da eine Ziffer falsch ist, ist der Fehler ganz eklatant. Und man findet auf einmal nicht mehr Mannheim, was geografisch dann am Rhein liegt, sondern Mannheim ist Minsk. Und man hat durch den Zahlendreher eben eine komplett andere Geokoordinate an dieser Stelle. Und der Mehrwert, um auf deine Frage nochmal eingangs einzugehen, ist, dass eigentlich erst jetzt auch so eine richtige Interpretierbarkeit des Materials möglich ist, was im Vorfeld gar nicht machbar wäre, weil man müsste eigentlich Tage, Wochen, Monate, wenn nicht sogar Jahre über großen Plänen hängen, um all die Informationen einzutragen und einen Abgleich dann zu machen. Also insofern, das Digitale eigentlich als Tor in die Analyse überhaupt per se.
Jacob B.: Das Thema, wem gehören die Daten? Auch rechtliche und natürlich damit verbundene ethische Fragen: das ist der Komplex Urheberrecht. Ich meine, der Bombers Baedeker ist nun schon etwas älter. Aber trotzdem: Wie sah denn die Urheberrechtslage aus? Wie, woran habt ihr das geprüft? Habt ihr das nochmal in einem Extraschritt geprüft?
Stefan Schmunk: Ja, genau, das wird geprüft. Ines Grund, die Leiterin der Bibliothek in Mainz, gemeinsam mit den Kollegen beim IEG, als auch den Kollegen an der UB, haben das geprüft. 44 publiziert, durchaus in der Form nachnutzbar.
Wir haben es bewusst, sehr bewusst unter offene, nachnutzbare Lizenzen gestellt, haben auch sehr bewusst uns dafür entschieden, wir reden jetzt nicht über Bilddigitalisate, sondern eben dann auch über den angereicherten, verbesserten, optimierten XML-ausgezeichneten Datensample eben bewusst unter offenen Lizenzen dann auch publiziert und gleiches gilt auch für den Code, der publiziert wurde. Das ist durchaus immer eine Problemstellung gerade für das Material aus dem 20. Jahrhundert, wo die Frage eben ist, naja, ist es denn gemeinfrei, kann es denn genutzt werden oder unter welchen Lizenzen publiziert man eigentlich das Ganze auch überhaupt?
Aber da bin ich auch sehr froh, dass die UB in Mainz da ihren Beitrag geleistet hat und es dementsprechend dann auch begleitet hat an vielen Stellen.
Jacob B.: Ihr habt euch ja dazu entschieden, das eben unter offenen Lizenzen alles zu publizieren. Wie schwierig, wie herausfordernd war denn das? Oft ist ja so ein bisschen unklar, die Gemengelage, bei wem wirklich die Verwertungs- und Nutzungsrechte auch jetzt bei Forschungsarbeiten liegen, gerade wenn es Drittmittelgeber und Ähnliches gibt. Wie sah denn das in eurem Fall aus?
Stefan Schmunk: Das ist eine gute Frage. Da habe ich mich glücklicherweise an vielen Stellen nicht drum kümmern müssen. Aber naja, 44 publiziert, weltweit durchaus in einer Reihe von Exemplaren vorhanden, wo wir dann gesagt haben, wir werden das sehr bewusst eben dann auch öffentlich publizieren und betrachten das natürlich dadurch, dass es im Eigentum der Bibliothek des IEG ist, das natürlich als ein Datensample, das in dieser Form so veröffentlicht wird. Und sollten das Foreign Office oder die Royal Air Force da noch Bedenken haben oder noch Eigentumsrechte anmelden, können Sie sich gerne vertrauensvoll an mich wenden und wir werden uns dann darum kümmern, dass es weiterhin auch öffentlich zugänglich ist.
Aber du hast ein wichtiges Thema angesprochen. Also FAIR und CARE bedeutet einfach, dass man wirklich darauf achtet, dass die Daten unter frei nutzbaren Lizenzen publiziert werden und zugleich eben auch entsprechend ethischen Anforderungen entsprechen. Das ist glaube ich auch eine diskussion die in den letzten jahren einfach wirklich notwendig war und immer noch notwendig ist, weil die Daten müssen öffentlich zugänglich gemacht werden, weil man dadurch eine gute Wissenschaft betreibt und weil dadurch eben das,naja, eigentlich unseren Standards der GWP in Deutschland entspricht und wir versuchen das darüber abzudecken. Aus dem Grund Digital First und Open First.
Jacob B.: Genau, ich glaube, das hätte für mich dann auch die Nachfrage in dem Sinne beantwortet, auf welcher Grundlage ihr euch dazu entschieden habt, es Open Access zu publizieren und eben auch mit einer offenen Lizenz und welche Interessen von Dritten es da eben noch gab. In eurem Fall war das dann sozusagen eure ganz bewusste Entscheidung aus intrinsischer Motivation heraus.
Stefan Schmunk: Klar, das sind mit die aufwendigsten Entscheidungen und Diskussionen in vielen Projekten, weil man eben in der Regel ja immer eine Gemengelage hat. War da einfach, war da wirklich einfach.
Jacob B.: Das ist doch gut, wenn es auch mal einfach funktioniert.
