Logo

Suche in HISTOFOX

LehrszenarioOCR-Methoden und Erstellung von Retro-Digitalisaten

OCR-Methoden und Erstellung von Retro-Digitalisaten

Methoden

  • Erlernen von OCR-Methoden (Automatische Texterkennung (ATR)Mit der automatischen Texterkennung werden in Digitalisaten enthaltene gedruckte oder handschriftliche Texte in maschinenlesbare, durchsuchbare Texte umgewandelt.Bei gedruckten oder maschinengeschriebenen Werken erfolgt eine Optical Character Recognition (OCR), bei handschriftlichen Texten heißt das Verfahren Handwritten Text Recognition (HTR). Weiterlesen, Handwritten Text Recognition (HTR)Handwritten Text Recognition (HTR) bezeichnet die automatische Erkennung von Handschriften. Der Scan der Handschrift wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen (forTEXT). Weiterlesen, Optical Character Recognition (OCR)Optical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen und Prinzipien der DigitalisierungBei der Digitalisierung werden analoge Materialien in digitale Formate, sog. Digitalisate, überführt. Diese Formate können weitergegeben, gespeichert, archiviert und maschinell verarbeitet werden. Weiterlesen von gedruckten Materialien
  • Erstellung von Retro-DigitalisatenRetro-Digitalisierung bezeichnet die Erstellung digitaler Repräsentationen analoger Objekte der realen Welt. Dies kann durch manuelle Verfahren wie die Transkription oder durch automatisierte Prozesse wie Bilderfassung, Datenerkennung oder Datenaufzeichnung erfolgen. Dazu gehört auch die Zusammenführung und Aggregation von Ressourcen, Informationen und Daten (Borek et al 2021). Weiterlesen

Kompetenzen und Lernziele

Anhand der zur Verfügung stehenden Daten (BilddigitalisateDigitalisate werden hergestellt, indem analoge Materialien wie Bücher, Handschriften, Urkunden, Bilder, Artefakte in digitale Formate überführt werden, die elektronisch gesichert werden. Digitale Daten haben den Vorteil, dass sie vervielfacht, geteilt und maschinell verarbeitet werden können (Data Affairs, Glossar). Weiterlesen) können Verfahren der OCR-Erkennung erprobt werden. Hierdurch können Studierende die Komplexität und Zeichenerkennung erproben und zugleich mit den zur Verfügung stehenden XML-Daten vergleichen.
Kompetenzziele: Umgang mit OCR-Werkzeugen, kritische Bewertung von Digitalisierungsergebnissen

Voraussetzungen und Tools

Vorkenntnisse

Für die o. g. Werkzeuge kann auf eine Reihe von Tutorials zurückgegriffen werden und aufgrund der vorhandenen Datenbasis die Genauigkeit abgeglichen werden.
Transkribus kann als Webtool genutzt werden, für den ein Nutzer*innen-Account angelegt werden muss. Die Studierenden können Transkribus in der Regel mittels einer Test-Version abhängig vom Scan-Volumen kostenlos nutzen. eScriptorium und Tesseract sind Open-Source-Lösungen, die als Applikation auf lokalen Rechnern installiert werden müssen. Die Nutzer*innen sollten über entsprechende Kenntnisse der jeweiligen Betriebssysteme verfügen und erste Kenntnisse in der Auszeichnung von Textdateien mittels xml haben.

Tutorials

Für die genutzten Tools existieren eine Reihe von einführenden Tutorials und es entstehen laufend weitere.

Vorbereitung

Sowohl die Bildigitalisate als auch die XML-Dateien können unter Beachtung der entsprechenden Lizenzen heruntergeladen und genutzt werden (siehe auch: Datensatz Bomber’s Baedeker). Abhängig von den geplanten Fragestellungen und Schwerpunkten des Kurses sollten die entsprechenden Tools auf lokalen Rechnern installiert bzw. im Falle von Transkribus entsprechende Accounts angelegt werden.

Vorgehen

Ziel ist es, Studierende an den forschungspraktischen Umgang mit historischen Quellen im digitalen Format heranzuführen. In diesem Lehrszenario sollen die Studierenden methodische Kompetenzen im Bereich der Retro-Digitalisierung und Texterkennung (OCR) entwickeln. Dafür prüfen sie die Qualität der OCR-Erkennung an einem selbstgewählten Ausschnitt des Baedeker-Digitalisats.

Die Lehrveranstaltung orientiert sich an den Prinzipien des forschenden Lernens, entdeckenden Lernens sowie dem Konzept des problem-based learning (PBL). Die Datensätze dienen als Ausgangspunkt zur eigenständigen Entwicklung historischer Fragestellungen und zur Aneignung digitaler Analysemethoden.

Als Zielgruppe werden fortgeschrittene Bachelor-Studierende (z. B. 5./6. Semester) oder Master-Studierende in Geschichte, Digital Humanities, Public History, Informationswissenschaft, Archiv‑ und Bibliothekswissenschaft adressiert.

Wie dies umgesetzt werden kann, zeigt das folgende Beispiel, das im Rahmen einer Lehrveranstaltung zur Digitalisierung und Retro-Digitalisierung von gedruckten Beständen entwickelt wurde:

Aufgabenstellung:
Wählen Sie ein Stadtprofil (z. B. Hanau, Worms, Bielefeld) aus den Digitalisaten aus.

  1. Führen Sie mit einem der OCR-Tools eine Erkennung durch (z. B. Transkribus / eScriptorium / Tesseract).
  2. Vergleichen Sie die OCR-Ergebnisse mit der bereitgestellten XML-Datei.
  3. Dokumentieren Sie:
    a) Übereinstimmungen und Differenzen
    b) Ursachen für Fehlinterpretationen
    c) Vorschläge zur Verbesserung
  4. Diskutieren Sie die Unterschiede und Gemeinsamkeiten. Können Sie identifizieren, weshalb Sie unterschiedliche Ergebnisse erhalten haben?

Lehrmethode:
Inquiry-Based Learning, Einzelarbeit mit Gruppen-Feedback

Literatur und Quellenangaben

  • Bach, Felix, Cristian Secco, Thorsten Wübbena, und Fabian Cremer. 2021. „Bomber’s Baedeker. Automatische Extraktion strukturierter Daten mit Python“. Github.com/ieg-dhr. Zuletzt aufgerufen am 23. Januar 2026. https://github.com/ieg-dhr/bombers_baedeker

  • Bach, Felix, Stefan Schmunk, Cristian Secco, und Thorsten Wübbena. 2021. The Bomber’s Baedeker. A Guide to the Economic Importance of German Towns and Cities. Zenodo. https://doi.org/10.5281/zenodo.5138504

  • Bach, Felix, Stefan Schmunk, Cristian Secco, und Thorsten Wübbena. 2021. „Bomber’s Baedeker – vom Text zum Bild zur Datenquelle“. In Fabrikation von Erkenntnis – Experimente in den Digital Humanities, herausgegeben von Manuel Burghardt, Lisa Dieckmann, Timo Steyer, Peer Trilcke, Niels Walkowski, Joëlle Weis, und Ulrike Wuttke. Wolfenbüttel. https://doi.org/10.17175/sb005_004

Zitierweise

Schmunk, Stefan. 2025. „OCR-Methoden und Erstellung von Retro-Digitalisaten“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/lehrszenarios/ocr-methoden-und-erstellung-von-retro-digitalisaten/