LehrszenarioOCR-Methoden und Erstellung von Retro-Digitalisaten

OCR-Methoden und Erstellung von Retro-Digitalisaten

Inhaltsverzeichnis

Methoden
Kompetenzen und Lernziele
Voraussetzungen und Tools
Vorkenntnisse
Tutorials
Vorbereitung
Vorgehen
Literatur und Quellenangaben
Zitierweise
Metadaten

Methoden

Automatische Texterkennung (ATR), Handwritten Text Recognition (HTR), Optical Character Recognition (OCR)

Erlernen von OCR-Methoden und Prinzipien der Digitalisierung von gedruckten Materialien
Erstellung von Retro-Digitalisaten

Kompetenzen und Lernziele

Anhand der zur Verfügung stehenden Daten (Bilddigitalisate) können Verfahren der OCR-Erkennung erprobt werden. Hierdurch können Studierende die Komplexität und Zeichenerkennung erproben und zugleich mit den zur Verfügung stehenden XML-Daten vergleichen.
Kompetenzziele: Umgang mit OCR-Werkzeugen, kritische Bewertung von Digitalisierungsergebnissen

Voraussetzungen und Tools

Transkribus
eScriptorium
Tesseract

Vorkenntnisse

Für die o. g. Werkzeuge kann auf eine Reihe von Tutorials zurückgegriffen werden und aufgrund der vorhandenen Datenbasis die Genauigkeit abgeglichen werden.
Transkribus kann als Webtool genutzt werden, für den ein Nutzer*innen-Account angelegt werden muss. Die Studierenden können Transkribus in der Regel mittels einer Test-Version abhängig vom Scan-Volumen kostenlos nutzen. eScriptorium und Tesseract sind Open-Source-Lösungen, die als Applikation auf lokalen Rechnern installiert werden müssen. Die Nutzer*innen sollten über entsprechende Kenntnisse der jeweiligen Betriebssysteme verfügen und erste Kenntnisse in der Auszeichnung von Textdateien mittels xml haben.

Tutorials

Für die genutzten Tools existieren eine Reihe von einführenden Tutorials und es entstehen laufend weitere.

Transkribus: https://help.transkribus.org/text-recognition
eScriptorium: https://ub-mannheim.github.io/eScriptorium_Dokumentation/Nutzungsanleitung_eScriptorium.html
Tesseract: https://github.com/tesseract-ocr/tesseract

Vorbereitung

Sowohl die Bildigitalisate als auch die XML-Dateien können unter Beachtung der entsprechenden Lizenzen heruntergeladen und genutzt werden. Abhängig von den geplanten Fragestellungen und Schwerpunkten des Kurses sollten die entsprechenden Tools auf lokalen Rechnern installiert bzw. im Falle von Transkribus entsprechende Accounts angelegt werden.

Vorgehen

Ziel ist es, Studierende an den forschungspraktischen Umgang mit historischen Quellen im digitalen Format heranzuführen. In diesem Lehrszenario sollen die Studierenden methodische Kompetenzen im Bereich der Retro-Digitalisierung und Texterkennung (OCR) entwickeln. Dafür prüfen sie die Qualität der OCR-Erkennung an einem selbstgewählten Ausschnitt des Baedeker-Digitalisats.

Die Lehrveranstaltung orientiert sich an den Prinzipien des forschenden Lernens, entdeckenden Lernens sowie dem Konzept des problem-based learning (PBL). Die Datensätze dienen als Ausgangspunkt zur eigenständigen Entwicklung historischer Fragestellungen und zur Aneignung digitaler Analysemethoden.

Als Zielgruppe werden fortgeschrittene Bachelor-Studierende (z. B. 5./6. Semester) oder Master-Studierende in Geschichte, Digital Humanities, Public History, Informationswissenschaft, Archiv‑ und Bibliothekswissenschaft adressiert.

Wie dies umgesetzt werden kann, zeigt das folgende Beispiel, das im Rahmen einer Lehrveranstaltung zur Digitalisierung und Retro-Digitalisierung von gedruckten Beständen entwickelt wurde:

Aufgabenstellung:
Wählen Sie ein Stadtprofil (z. B. Hanau, Worms, Bielefeld) aus den Digitalisaten aus.

Führen Sie mit einem der OCR-Tools eine Erkennung durch (z. B. Transkribus / eScriptorium / Tesseract).
Vergleichen Sie die OCR-Ergebnisse mit der bereitgestellten XML-Datei.
Dokumentieren Sie:
a) Übereinstimmungen und Differenzen
b) Ursachen für Fehlinterpretationen
c) Vorschläge zur Verbesserung
Diskutieren Sie die Unterschiede und Gemeinsamkeiten. Können Sie identifizieren, weshalb Sie unterschiedliche Ergebnisse erhalten haben?

Lehrmethode:
Inquiry-Based Learning, Einzelarbeit mit Gruppen-Feedback

Literatur und Quellenangaben

Bach, Felix, Cristian Secco, Thorsten Wübbena, und Fabian Cremer. 2021. „Bomber’s Baedeker. Automatische Extraktion strukturierter Daten mit Python“. Github.com/ieg-dhr. Zuletzt aufgerufen am 23. Januar 2026. https://github.com/ieg-dhr/bombers_baedeker
Bach, Felix, Stefan Schmunk, Cristian Secco, und Thorsten Wübbena. 2021. The Bomber’s Baedeker. A Guide to the Economic Importance of German Towns and Cities. Zenodo. https://doi.org/10.5281/zenodo.5138504
Bach, Felix, Stefan Schmunk, Cristian Secco, und Thorsten Wübbena. 2021. „Bomber’s Baedeker – vom Text zum Bild zur Datenquelle“. In Fabrikation von Erkenntnis – Experimente in den Digital Humanities, herausgegeben von Manuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels Walkowski, Joëlle Weis, und Ulrike Wuttke. Wolfenbüttel. https://doi.org/10.17175/sb005_004

Zitierweise

Schmunk, Stefan. 2025. „OCR-Methoden und Erstellung von Retro-Digitalisaten“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/lehrszenarios/ocr-methoden-und-erstellung-von-retro-digitalisaten/

Metadaten

Lizenztyp	Attribution CC BY (4.0)
Version	1.0
Verfasser*innen	Schmunk, Stefan
PID	https://zenodo.org/records/16812316
Methoden und Arbeitstechniken	Automatische Texterkennung Optical Character Recognition (OCR) Retro-Digitalisierung
Dateitypen und -formate	Bild Text XML
Fachdisziplinen	Neueste Geschichte Wirtschaftsgeschichte
Tools	Transkribus eScriptorium
Zugehörige Datensätze	Bomber’s Baedeker

Suche in HISTOFOX

OCR-Methoden und Erstellung von Retro-Digitalisaten

Inhaltsverzeichnis

Methoden

Kompetenzen und Lernziele

Voraussetzungen und Tools

Vorkenntnisse

Tutorials

Vorbereitung

Vorgehen

Literatur und Quellenangaben

Zitierweise

Metadaten

Inhaltsverzeichnis