Logo

Suche in HISTOFOX

AbschnittVorgehen: Archivierung

Vorgehen: Archivierung

Grafik: Archivierung, Anne Voigt mit CoCoMaterial, 2025, lizenziert unter CC BY-SA 4.0

Datenauswahl

Jeder Archivierungsvorgang erfordert die Bewertung der zu archivierenden Dokumente und das Aussortieren derjenigen, die nicht übernommen werden. Auch bei der Archivierung der eigenen Forschungsunterlagen muss dieser Vorgang stattfinden.

Der zunächst eventuell naheliegende Gedanke, schlicht alle einem Forschungsvorhaben zugehörige Unterlagen zu archivieren, muss bei näherem Hinsehen relativiert werden. Oft ist es unmöglich oder unpraktisch, komplette Materialkorpora einer Forschung, bspw. inklusive handschriftlicher Notizen, zu archivieren. Gerade, da im Kontext des aktuellen Forschungsdatenmanagements die digitale Archivierung gemeint ist, wäre in vielen Fällen die zuvor notwendige Digitalisierung handschriftlicher Materialien ein unverhältnismäßig hoher Aufwand. Während es im Digitalen zwar im Vergleich zum traditionellen Archivieren in aller Regel keine physischen Platzprobleme gibt, ist die Datenmenge dennoch zu beachten, v. a. auch hinsichtlich der ökologischen Nachhaltigkeit, sollte Datensparsamkeit ein leitendes Kriterium bei der Auswahl der zu archivierenden Daten sein.

Praktisch sind daher bei der Auswahl der zu archivierenden Daten einige Überlegungen zu treffen:

  • Welche Materialien sind archivwürdig? Nicht jeder Versionsstand eines internen Zwischenberichts ist für die Nachvollziehbarkeit von Forschungsergebnissen relevant. Sämtliche Unterlagen zu archivieren, würde nur zur Datenflut beitragen.
  • Welche Materialien können mit vertretbarem Aufwand archiviert werden? Insbesondere beim hybriden Arbeiten sollte auch für analoge Unterlagen, bspw. handschriftliche Notizen, geprüft werden, ob überhaupt Kapazitäten vorhanden sind, diese im Universitätsarchiv zu archivieren, ggf. gar zu digitalisieren. Werden analoge Forschungsdaten archiviert, sollte ihr Standort bei den digitalen Daten ebenfalls vermerkt werden.
  • Wie ist mit sensiblen Daten'Einen eigenen Teilbereich innerhalb der personenbezogenen Daten bilden die sog. besonderen Kategorien personenbezogener Daten. Ihre Definition geht auf den EU-DSGVO Artikel 9 Abs. 1, 2016 zurück, der besagt, dass es sich hierbei um Angaben über Weiterlesen umzugehen? Hierbei handelt es sich vor allem um personenbezogene Daten, die z. B. im Kontext von Interviews bei Oral-History-Projekten verarbeitet werden. Wenn keine Rechte zur Archivierung eingeräumt wurden, können die Daten nicht archiviert werden. Bei Befragungen und Interviews muss daher die zuvor einzuholende Einverständniserklärung'Informierte Einwilligung (informed consent) meint die Zustimmung der Forschungsteilnehmenden zur Teilnahme an einem Forschungsvorhaben auf der Basis umfangreicher und verständlicher Informationen. Die Ausgestaltung einer informierten Einwilligung muss dabei sowohl ethische Grundsätze als auch datenschutzrechtliche Anforderungen adressieren.' (Data Affairs, Glossar) Weiterlesen einen Hinweis auf die Archivierung enthalten. In jedem Fall ist bei der Archivierung solcher Materialien eine sorgfältige Auswahl des Archivs notwendig.
  • Handelt es sich beim zu archivierenden Material auch um urheberrechtlich'Das Urheberrecht (UrhG) schützt bestimmte geistige Schöpfungen (Werke) und Leistungen. Unter Werke fallen Sprachwerke, Lichtbild-, Film- und Musikwerke sowie Darstellungen wissenschaftlicher oder technischer Art, wie Zeichnungen, Pläne, Karten, Skizzen, Tabellen und plastische Darstellungen (Gesetz über Urheberrecht und verwandte Schutzrechte 2021, §2). Die künstlerischen, wissenschaftlichen Leistungen von Personen oder die getätigte Investition gelten dagegen als schützenswerte Leistungen (Leistungsschutzrecht). Der*die Urheber*in ist berechtigt, das Werk zu veröffentlichen und zu verwerten.' (Data Affairs, Glossar) Weiterlesen oder anderweitig geschütztes Material? Dann müssen ggf. die Nutzungsrechte an den Daten zuvor eingeholt und dann dokumentiert sein (siehe auch Artikel zum Urheberrecht).

Um den Arbeitsaufwand am Ende des Forschungsvorhabens zu reduzieren, ist es daher sinnvoll, die notwendige Archivierung bereits in der Planungsphase mitzudenken. So können schon während der Projektdurchführung Dateien zur Archivierung markiert werden. Noch viel wichtiger ist jedoch, bereits beim Erstellen der Daten eine Dokumentation zu pflegen, da ohne eine solche die spätere Nachvollziehbarkeit erschwert wird.1Datendokumentation dient dazu, zu beschreiben, wie Daten aufgebaut sind, wie sie erhoben wurden und zu welchem Zweck sie ursprünglich verwendet wurden. Bei digitalisierten Schriftquellen wäre beispielsweise zu dokumentieren, mit welchen Methoden diese digitalisiert wurden, an welchem Standort sich die Originale befinden und ob anschließend Methoden wie OCROptical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen angewendet wurden und ob es dabei eine Nachkorrektur gab. Welche Daten archiviert und wie diese dafür beschrieben werden sollen, kann im Datenmanagementplan (vgl. Artikel Datenmanagementplan) festgehalten werden.

Archive, Repositorien und Forschungsdatenzentren (FDZ)

Forschungsdaten können auf unterschiedliche Weise und damit auch an unterschiedlichen Orten archiviert werden. Die folgende Tabelle gibt einen Überblick über die unterschiedlichen Formate, die eine Archivierung von Forschungsdaten anbieten. Zu beachten ist dabei, dass der Übergang zwischen einer reinen Archivierung und einer aktiven Bereitstellung zur Nachnutzung fließend sein kann. Grundsätzlich kann festgehalten werden, dass bei einem Ziel der aktiven Nachnutzung auch der Aufbereitungsaufwand steigt, da Daten nicht nur passiv archiviert, sondern aktiv durch die Forschungsgemeinschaft genutzt werden sollen.

MerkmalForschungsdaten-repositoriumForschungsdaten-zentrumDatenarchiv
HauptzweckVeröffentlichung, NachnutzungKuratierte Bereitstellung für ForschungLangzeitbewahrung, Sicherung
ZugangHäufig offenReguliert, teils restriktivUnterschiedlich – oft passiv zugänglich
KuratierungGering bis mittelHochMittel bis hoch
BetreuungMinimalIntensive BeratungArchivfachlich, nicht primär forschungsgeleitet
Technischer FokusSpeicherplattformDateninfrastruktur + SupportErhaltungsstrategien, Formaterhalt
Relevanz für NutzungHoch (Zweck: Nachnutzung)Hoch (Zweck: Sekundärnutzung)Niedrig bis mittel (Zweck: Sicherung)

Für die historisch arbeitenden Disziplinen gibt es noch keine feststehenden Forschungsdatenzentren und Repositorien, die von allen uneingeschränkt für die alleinige Archivierung genutzt werden können, deshalb ist das Archiv oder Repositorium der eigenen Institution in der Regel die erste Anlaufstelle. Viele Hochschulen und Universitäten verfügen über ein solches Archiv oder sind dabei ein solches aufzubauen und stellen qualifiziertes Personal bereit, das beraten bei der Datenauswahl und -übergabe kann.

Für eine Archivierung geeignete Datenformate

Die Leitlinien der guten wissenschaftlichen Praxis sehen mindestens 10 Jahre Aufbewahrungsfrist vor (Deutsche Forschungsgemeinschaft 2022, 22). Neben der Sicherstellung der Interpretierbarkeit der Daten durch eine begleitende Dokumentation sowie Metadaten, ist es gemäß den FAIR-Prinzipien'Die FAIR-Prinzipien wurden 2016 erstmals von der FORCE 11-Community (The Future of Research Communication and e-Scholarship) entwickelt. FORCE11 ist eine Gemeinschaft von Wissenschaftlern, Bibliothekaren, Archivaren, Verlegern und Forschungsförderern, die durch den effektiven Einsatz von Informationstechnologie einen Wandel in der modernen wissenschaftlichen Kommunikation herbeiführen und so eine verbesserte Wissenserstellung und -weitergabe unterstützen will. Das primäre Ziel liegt in der transparenten und offenen Darlegung wissenschaftlicher Erkenntnisprozesse. Demnach sollten Daten online findable (auffindbar), accessible (zugänglich), interoperable (kompatibel) und reusable (wiederverwendbar) abgelegt und strukturiert sein. Ziel ist es, Daten langfristig aufzubewahren und im Sinne der Open Science und des Data Sharing für eine Nachnutzung durch Dritte bereitzustellen. Genaue Definitionen der FORCE11 selbst können auf der Website nachgelesen werden siehe: https://force11.org/info/the-fair-data-principles/. Die FAIR-Prinzipien berücksichtigen ethische Aspekte der Weitergabe von Daten in sozialwissenschaftlichen Kontexten nicht hinreichend, weshalb sie um die CARE-Prinzipien ergänzt wurden.' (Data Affairs, Glossar) Weiterlesen wichtig, auch deren Nutzbarkeit durch geeignete DateiformateDie Begriffe Dateityp und Dateiformat werden meist synonym verwendet, bezeichnen jedoch verschiedene Dinge.'Das Dateiformat ist die spezifische technische Implementierung einer Datei, d. h. wie die Daten gespeichert, repräsentiert und interpretiert oder verarbeitet werden. In der Regel sind Dateiformate an Dateierweiterungen, zum Beispiel PNG oder TIFF, zu erkennen.' (Lernzielmatrix Glossar 2025) Weiterlesen zu gewährleisten. Für eine Archivierung weniger geeignet sind Formate, die für ihre Verarbeitung eine proprietäre'Proprietäre Dateiformate sind Dateiformate, die sich nicht oder nur mit Schwierigkeiten von Dritten öffnen bzw. lesen lassen, da sie z. B. lizenzrechtlich oder durch Patente geschützt sind. Meist wird dafür spezielle (kostenpflichtige) Software benötigt (Wikipedia 2023). Beispiele hierfür sind z. B. das Wordformat .docx oder das Adobe Photoshop-Format .psd.' (Data Affairs, Glossar) Weiterlesen meist kostenpflichtige Software wie Microsoft Office, MaxQDA oder Photoshop benötigen. Wird mit einer solchen Software in einem Forschungsvorhaben gearbeitet, sollten die Daten für die Archivierung zusätzlich in geeignetere offene Dateiformate konvertiert werden. Offene Dateiformate sind dadurch gekennzeichnet, dass ihr Aufbau frei zugänglich dokumentiert ist, bestenfalls sogar standardisiert mittels beispielsweise einer ISO-Norm. Auch darf kein Unternehmen Patente an dem Dateiformat halten bzw. müssen diese Patente so für die Allgemeinheit freigeben sein, dass für die Implementierung eines Formats keine Lizenzgebühren anfallen. Dadurch können Daten, die in einem solchen offenen Format gespeichert wurden, auch dann noch gelesen werden, wenn die ursprüngliche Software nicht mehr existiert, da durch Dritte ein neues Programm zum Öffnen der Dokumente geschrieben werden kann.2Dies ist zumindest die theoretische Überlegung hinter der Forderung nach Nutzung offener Dateiformate. Praktisch sind moderne Dateiformate so komplex, dass selbst ISO-genormte Dateiformate nicht einheitlich zu implementieren sind. Verwiesen sei hier auf die beiden ISO-standardisierten Office-Formate “Open Document Format” von LibreOffice und “Office Open XML” von Microsoft Office. Beide Programme können Dokumente im Format des jeweils anderen öffnen und schreiben, komplexe Formatierungen werden dabei jedoch oft beschädigt. Für eine Archivierung ist ebenfalls wichtig, dass die Dateien verlustfrei gespeichert werden. Insbesondere Audio- und Bildformate nutzen oft eine verlustbehaftete Komprimierung zur Reduzierung der Dateigröße. Dadurch können jedoch beispielsweise Bilddetails verloren gehen, die für eine zukünftige Analyse relevant sein könnten.

Meist kann eine Konvertierung direkt in der entsprechenden Software beim Speichern oder unter Export vorgenommen werden. Auch die Dateien im Originalformat müssen archiviert werden, da bei der Konvertierung oft ein Informationsverlust eintritt.

Tabelle: Für eine Archivierung empfohlene Dateiformate (Forschungsdatendienst OstData 2019)

Dateiformate fürEmpfohlenes Dateiformat 
Bilder.tiff/.tif
Vektorgrafik.svg/.svgz
TexteStatische Texte: .pfd (in der ISO-Standardform PDF/A)
Strukturierte Texte: .xml (auf XML basierende Formate wie .tei, .dta)
Text: .rtf, .txt (als UTF-8-codiert)
Text (Office): .odt/.fodt
Text (Publikation plus Formeln): .tex
Tabellen/DatenbankenTabellen: .csv.ods/.fods
Statistik-Softwareformate/Quantitative Daten in Tabellen mit umfangreichen Metadaten: SPSS portable format (.por)STATA (*.dta)R (*.R)SAS Transport (*.sas)
Weit verbreitete (proprietäre) Formate von Statistikpaketen, wie z.B. SPSS: (*.sav), Stata (*.dta)
Relationale Datenbanken:SIARD
Audio.wav; .flac
Video.mkv; mp4; .mxf
GeodatenESRI Shapefile (essential): .shp, .shx, .dbf ; optional: .prj, .sbx, .sbn)
GeoTIFF: .kml, .csv
Softwareals Quellcode (unkompiliert) und Dokumentation

Eine weitere Herausforderung besteht bei der Archivierung von Software. Projekte, die als Teil ihres Forschungsvorhabens digitale (Analyse)methoden benutzen, verwenden oft Software nicht nur zur Erzeugung von Dateien, sondern als integralen Bestandteil der Analyse selbst, z. B. bei der automatischen Erkennung von Themen in Dokumenten (Topic Modeling'Das Topic Modeling ist ein statistisches, auf Wahrscheinlichkeitsrechnung basierendes, Verfahren zur thematischen Exploration größerer Textsammlungen. Das Verfahren erzeugt 'Topics' zur Abbildung häufig gemeinsam vorkommender Wörter in einem Text.' (forTEXT) Weiterlesen). Hierzu wird vielfach eigener Quellcode geschrieben, der auf weitere Programmbibliotheken zurückgreift. Damit die mit dieser Software erzeugten Ergebnisse nachvollzogen und nachgenutzt werden können, ist eine Archivierung der Software selbst notwendig. Dieser Software-Quellcode muss ebenfalls umfangreich dokumentiert archiviert werden. Abhängigkeiten von Bibliotheken und Entwicklungsumgebungen müssen so genau wie möglich spezifiziert werden.

Literatur

Nachweise in Data Affairs

Artikel

Archivierung

Lerneinheit

Archivierung