OpenRefine
Inhaltsverzeichnis
Übersicht
OpenRefine ist ein Open-Source-Tool zur Bereinigung, Transformation, Zusammenführung und Anreicherung von tabellarischen Daten. Es wird vorrangig bei großen, unstrukturierten oder fehlerhaften Datensätzen eingesetzt.
Methoden und Arbeitstechniken
Datenexploration, Datenbereinigung, Datenbearbeitung (Zusammenführung), Datentransformation, Datenanreicherung
Anwendungsbeispiel
Video: Datenaufbereitung und Qualitätsverbesserung mit OpenRefine (Coffee Lecture), Forschungsdatenmanagement Thüringen (TKFDM) 2023, Standard-YouTube-Lizenz
Steckbrief
- Systemanforderungen: Windows, macOS, Linux, (lokale Installation, Installation auf einem Server, Webbrowser)
- Stand der Entwicklung: ständige Weiterentwicklung durch die Community
- Herausgeber: OpenRefine-Community
- Lizenz: BSD Lizenz siehe LICENSE.txt
- Kosten: kostenlos
- Weblink: https://openrefine.org/
- Im- und Export:
- Importformate: CSV, TSV, JSON, XML, ODS, XLS oder XLSX, PC-Axis (PX), MARC, RDF data (JSON-LD, N3, N-Triples, Turtle, RDF/XML), Wikitext
- Exportformate: CSV, TSV, HTML-formatierte Tabelle, XLS or XLSX, ODF, ODS, Hochladen in Google Tabellen (benötigt Google Account) und mehr (OpenRefine User Manual, 2025)
- Sprachen: Englisch
Eigenschaften
1. Für welche Methoden/Arbeitsschritte kann das Tool eingesetzt werden?
OpenRefine ist für die Arbeit mit großen und unstrukturierten Datensätzen geeignet. Das Programm wird für die Datenbereinigung wie z. B. Beseitigung von Dubletten, Inkonsistenzen und Tippfehlern sowie die Vereinheitlichung von Schreibweisen genutzt. Mit OpenRefine können zudem Daten mit externen Quellen wie z. B. Wikidata oder GND angereichert, aus verschiedenen Quellen zusammengeführt, sortiert, strukturiert und transformiert werden.
2. Welche Funktionalitäten bietet das Tool und wie zuverlässig ist es?
OpenRefine verfügt über folgende Kernfunktionalitäten (Steiner 2023):
- Datenexploration: Ermöglicht einen schnellen Überblick über auch sehr große Datensätze
- Datenbereinigung: Ermöglicht die Korrektur von Inkonsistenzen, Duplikaten und Fehlern in Datensätzen durch
- Facettierung: filtert und gruppiert Daten nach verschiedenen Kriterien, um Inkonsistenzen zu finden und korrigieren zu können.
- Clustering: Findet und gruppiert ähnliche Werte, um verschiedene Schreibweisen zu vereinheitlichen.
- Datenfilterung und -sortierung: Unterstützt das Filtern, Sortieren und Gruppieren von Daten zur effizienten Organisation und Analyse von Datensätzen
- Datentransformation: Unterstützt die Umwandlung von Daten von einem Format in ein anderes, z. B. von Excel/CSV zu JSON, XML, RDF
- Reconciliation (Datenanreicherung): Ermöglicht die semantische Erweiterung von Datensätzen über APIs oder anders zur Verfügung stehende externe Daten z.B. Wikidata oder GND und dadurch der Zusammenführung von Datensätzen aus verschiedenen Quellen
- Versionierung: Versionskontrolle durch die Möglichkeit, Arbeitsschritte wieder rückgängig zu machen oder bereits getätigte Schritte wiederherzustellen
3. Ist das Tool für DH-Einsteiger*innen geeignet?
| Checkliste | √ / teilweise / – |
|---|---|
| Grafische Benutzeroberfläche | √ |
| Intuitive Bedienbarkeit | teilweise |
| Leichter Einstieg | √ |
| Handbuch vorhanden | √ |
| Videotutorials | √ |
| Gibt es eine Nutzerbetreuung? | √ |
4. Unterstützt das Tool kollaboratives Arbeiten?
| ☐ ja | ☒ nein |
Synchrones, kollaboratives Arbeiten an Projekten wird von OpenRefine nicht unterstützt, da OpenRefine eine lokale Anwendung auf einem einzelnen Computer ist. Eine Zusammenarbeit ist nur möglich, indem das Projekt exportiert, auf einen anderen Rechner importiert und dort weiterbearbeitet wird (Pollin u. a. 2024).
5. Hinweise zur Sicherheit?
OpenRefine verarbeitet und speichert die Daten der Projekte lokal auf dem eigenen Computer. Es findet kein Austausch oder Übertragung von Daten über eine Cloud oder einen externen Server statt.
Tutorials
- Selbstlernkurs für Einsteiger*innen des Projekts SODa 2025 (Deutsch): https://liascript.github.io/course/?https://raw.githubusercontent.com/soda-collections-objects-data-literacy/OpenRefine-Beginner-Tutorial/main/SODa-OpenRefine-Beginner-Tutorial.md#1
- Einsteigerworkshops des FDMLab@LABW Baden Würtemberg zu den einzelnen Funtkionalitäten (Deutsch): https://fdmlab.landesarchiv-bw.de/workshop/openrefine-einsteiger/warum-openrefine/
- Videotutorial “Introduction to OpenRefine” of the Digital Public Library of America (English): https://www.youtube.com/watch?v=sAS0_RQSmms
- A beginner-level hands-on workshop (English): https://librarycarpentry.github.io/lc-open-refine/
Praktische Übung
- In diesem Selbstlernkurs werden die wichtigsten Funktionen in OpenRefine anhand eines Datensatzes erlernt und praktisch ausprobiert (English): https://librarycarpentry.github.io/lc-open-refine/
- In diesem Selbstlernkurs von Programming Historien wird anhand eines Datensatzes die Datenbereinigung erklärt und angewendet (English): https://programminghistorian.org/en/lessons/cleaning-data-with-openrefine#getting-started-installing-openrefine-and-importing-data
- In diesem Selbstlernkurs von Programming Historien wird das Fetching (Abrufen) und Parsen von Daten aus dem Web erklärt und praktisch ausprobiert (English): https://programminghistorian.org/en/lessons/fetch-and-parse-data-with-openrefine
Literatur und Quellenangaben
Delpeuch, Antonin. 2025. „OpenRefine User Manual“. OpenRefine. Zuletzt aufgerufen am 28. Januar 2026. https://openrefine.org/docs
Zitierweise
Voigt, Anne. 2026. „OpenRefine“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/tools/openrefine/
