Logo

Suche in HISTOFOX

ToolOpenRefine

OpenRefine

Übersicht 

OpenRefine ist ein Open-Source-Tool zur Bereinigung, Transformation, Zusammenführung und Anreicherung von tabellarischen Daten. Es wird vorrangig bei großen, unstrukturierten oder fehlerhaften Datensätzen eingesetzt.

Methoden und Arbeitstechniken

Datenexploration, Datenbereinigung, Datenbearbeitung (Zusammenführung), Datentransformation, Datenanreicherung

Anwendungsbeispiel

Video: Datenaufbereitung und Qualitätsverbesserung mit OpenRefine (Coffee Lecture), Forschungsdatenmanagement Thüringen (TKFDM) 2023, Standard-YouTube-Lizenz

Steckbrief  

  • Systemanforderungen: Windows, macOS, Linux, (lokale Installation, Installation auf einem Server, Webbrowser)
  • Stand der Entwicklung: ständige Weiterentwicklung durch die Community
  • Herausgeber: OpenRefine-Community
  • Lizenz: BSD Lizenz siehe LICENSE.txt
  • Kosten: kostenlos
  • Weblink: https://openrefine.org/
  • Im- und Export:
    • Importformate: CSV, TSV, JSON, XML, ODS, XLS oder XLSX, PC-Axis (PX), MARC, RDF data (JSON-LD, N3, N-Triples, Turtle, RDF/XML), Wikitext
    • Exportformate: CSV, TSV, HTML-formatierte Tabelle, XLS or XLSX, ODF, ODS, Hochladen in Google Tabellen (benötigt Google Account) und mehr (OpenRefine User Manual, 2025)
  • Sprachen: Englisch

Eigenschaften

1. Für welche Methoden/Arbeitsschritte kann das Tool eingesetzt werden?

OpenRefine ist für die Arbeit mit großen und unstrukturierten Datensätzen geeignet. Das Programm wird für die Datenbereinigung wie z. B. Beseitigung von Dubletten, Inkonsistenzen und Tippfehlern sowie die Vereinheitlichung von Schreibweisen genutzt. Mit OpenRefine können zudem Daten mit externen Quellen wie z. B. Wikidata oder GND angereichert, aus verschiedenen Quellen zusammengeführt, sortiert, strukturiert und transformiert werden. 

2. Welche Funktionalitäten bietet das Tool und wie zuverlässig ist es?

OpenRefine verfügt über folgende Kernfunktionalitäten (Steiner 2023): 

  • Datenexploration: Ermöglicht einen schnellen Überblick über auch sehr große Datensätze 
  • Datenbereinigung: Ermöglicht die Korrektur von Inkonsistenzen, Duplikaten und Fehlern in Datensätzen durch
    • Facettierung: filtert und gruppiert Daten nach verschiedenen Kriterien, um Inkonsistenzen zu finden und korrigieren zu können.
    • Clustering: Findet und gruppiert ähnliche Werte, um verschiedene Schreibweisen zu vereinheitlichen.
  • Datenfilterung und -sortierung: Unterstützt das Filtern, Sortieren und Gruppieren von Daten zur effizienten Organisation und Analyse von Datensätzen
  • Datentransformation: Unterstützt die Umwandlung von Daten von einem Format in ein anderes, z. B. von Excel/CSV zu JSON, XML, RDF 
  • Reconciliation (Datenanreicherung): Ermöglicht die semantische Erweiterung von Datensätzen über APIs oder anders zur Verfügung stehende externe Daten z.B. Wikidata oder GND und dadurch der Zusammenführung von Datensätzen aus verschiedenen Quellen 
  • Versionierung: Versionskontrolle durch die Möglichkeit, Arbeitsschritte wieder rückgängig zu machen oder bereits getätigte Schritte wiederherzustellen

3. Ist das Tool für DH-Einsteiger*innen geeignet?

Checkliste√ / teilweise / –
Grafische Benutzeroberfläche√ 
Intuitive Bedienbarkeitteilweise  
Leichter Einstieg√ 
Handbuch vorhanden√ 
Videotutorials√ 
Gibt es eine Nutzerbetreuung?√ 

4. Unterstützt das Tool kollaboratives Arbeiten?

☐  ja☒  nein

Synchrones, kollaboratives Arbeiten an Projekten wird von OpenRefine nicht unterstützt, da OpenRefine eine lokale Anwendung auf einem einzelnen Computer ist. Eine Zusammenarbeit ist nur möglich, indem das Projekt exportiert, auf einen anderen Rechner importiert und dort weiterbearbeitet wird (Pollin u. a. 2024).

5. Hinweise zur Sicherheit?

OpenRefine verarbeitet und speichert die Daten der Projekte lokal auf dem eigenen Computer. Es findet kein Austausch oder Übertragung von Daten über eine Cloud oder einen externen Server statt.

Tutorials

Praktische Übung

Literatur und Quellenangaben

Zitierweise

Voigt, Anne. 2026. „OpenRefine“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/tools/openrefine/