Logo

Suche in HISTOFOX

LehrszenarioOCR-Methoden und Erstellung von Retro-Digitalisaten

OCR-Methoden und Erstellung von Retro-Digitalisaten

Methoden

Automatische Texterkennung (ATR), Handwritten Text Recognition (HTR), Optical Character Recognition (OCR)

  • Erlernen von OCR-Methoden und Prinzipien der Digitalisierung von gedruckten Materialien
  • Erstellung von Retro-Digitalisaten

Kompetenzen und Lernziele

Anhand der zur Verfügung stehenden Daten (Bilddigitalisate) können Verfahren der OCR-Erkennung erprobt werden. Hierdurch können Studierende die Komplexität und Zeichenerkennung erproben und zugleich mit den zur Verfügung stehenden XML-Daten vergleichen.
Kompetenzziele: Umgang mit OCR-Werkzeugen, kritische Bewertung von Digitalisierungsergebnissen

Voraussetzungen und Tools

  • Transkribus
  • eScriptorium
  • Tesseract

Vorkenntnisse

Für die o. g. Werkzeuge kann auf eine Reihe von Tutorials zurückgegriffen werden und aufgrund der vorhandenen Datenbasis die Genauigkeit abgeglichen werden.
Transkribus kann als Webtool genutzt werden, für den ein Nutzer*innen-Account angelegt werden muss. Die Studierenden können Transkribus in der Regel mittels einer Test-Version abhängig vom Scan-Volumen kostenlos nutzen. eScriptorium und Tesseract sind Open-Source-Lösungen, die als Applikation auf lokalen Rechnern installiert werden müssen. Die Nutzer*innen sollten über entsprechende Kenntnisse der jeweiligen Betriebssysteme verfügen und erste Kenntnisse in der Auszeichnung von Textdateien mittels xml haben.

Tutorials

Für die genutzten Tools existieren eine Reihe von einführenden Tutorials und es entstehen laufend weitere.

Vorbereitung

Sowohl die Bildigitalisate als auch die XML-Dateien können unter Beachtung der entsprechenden Lizenzen heruntergeladen und genutzt werden. Abhängig von den geplanten Fragestellungen und Schwerpunkten des Kurses sollten die entsprechenden Tools auf lokalen Rechnern installiert bzw. im Falle von Transkribus entsprechende Accounts angelegt werden.

Vorgehen

Ziel ist es, Studierende an den forschungspraktischen Umgang mit historischen Quellen im digitalen Format heranzuführen. In diesem Lehrszenario sollen die Studierenden methodische Kompetenzen im Bereich der Retro-Digitalisierung und Texterkennung (OCR) entwickeln. Dafür prüfen sie die Qualität der OCR-Erkennung an einem selbstgewählten Ausschnitt des Baedeker-Digitalisats.

Die Lehrveranstaltung orientiert sich an den Prinzipien des forschenden Lernens, entdeckenden Lernens sowie dem Konzept des problem-based learning (PBL). Die Datensätze dienen als Ausgangspunkt zur eigenständigen Entwicklung historischer Fragestellungen und zur Aneignung digitaler Analysemethoden.

Als Zielgruppe werden fortgeschrittene Bachelor-Studierende (z. B. 5./6. Semester) oder Master-Studierende in Geschichte, Digital Humanities, Public History, Informationswissenschaft, Archiv‑ und Bibliothekswissenschaft adressiert.

Wie dies umgesetzt werden kann, zeigt das folgende Beispiel, das im Rahmen einer Lehrveranstaltung zur Digitalisierung und Retro-Digitalisierung von gedruckten Beständen entwickelt wurde:

Aufgabenstellung:
Wählen Sie ein Stadtprofil (z. B. Hanau, Worms, Bielefeld) aus den Digitalisaten aus.

  1. Führen Sie mit einem der OCR-Tools eine Erkennung durch (z. B. Transkribus / eScriptorium / Tesseract).
  2. Vergleichen Sie die OCR-Ergebnisse mit der bereitgestellten XML-Datei.
  3. Dokumentieren Sie:
    a) Übereinstimmungen und Differenzen
    b) Ursachen für Fehlinterpretationen
    c) Vorschläge zur Verbesserung
  4. Diskutieren Sie die Unterschiede und Gemeinsamkeiten. Können Sie identifizieren, weshalb Sie unterschiedliche Ergebnisse erhalten haben?

Lehrmethode:
Inquiry-Based Learning, Einzelarbeit mit Gruppen-Feedback

Literatur und Quellenangaben

  • Bach, Felix, Cristian Secco, Thorsten Wübbena, und Fabian Cremer. 2021. „Bomber’s Baedeker. Automatische Extraktion strukturierter Daten mit Python“. Github.com/ieg-dhr. Zuletzt aufgerufen am 23. Januar 2026. https://github.com/ieg-dhr/bombers_baedeker

  • Bach, Felix, Stefan Schmunk, Cristian Secco, und Thorsten Wübbena. 2021. The Bomber’s Baedeker. A Guide to the Economic Importance of German Towns and Cities. Zenodo. https://doi.org/10.5281/zenodo.5138504

  • Bach, Felix, Stefan Schmunk, Cristian Secco, und Thorsten Wübbena. 2021. „Bomber’s Baedeker – vom Text zum Bild zur Datenquelle“. In Fabrikation von Erkenntnis – Experimente in den Digital Humanities, herausgegeben von Manuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels Walkowski, Joëlle Weis, und Ulrike Wuttke. Wolfenbüttel. https://doi.org/10.17175/sb005_004

Zitierweise

Schmunk, Stefan. 2025. „OCR-Methoden und Erstellung von Retro-Digitalisaten“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/lehrszenarios/ocr-methoden-und-erstellung-von-retro-digitalisaten/