Logo

Suche in HISTOFOX

ToolTranskribus

Transkribus

Dieser Text ist eine angepasste Fassung des Textes „Transkribus“ aus forTEXT von Jan Horstmann, lizenziert unter CC BY-SA 3.0.

Übersicht

Transkribus ist eine webbasierte Anwendung für die automatische Texterkennung bei BilddigitalisatenDigitalisate werden hergestellt, indem analoge Materialien wie Bücher, Handschriften, Urkunden, Bilder, Artefakte in digitale Formate überführt werden, die elektronisch gesichert werden. Digitale Daten haben den Vorteil, dass sie vervielfacht, geteilt und maschinell verarbeitet werden können (Data Affairs, Glossar). Weiterlesen, das vor allem für die DigitalisierungBei der Digitalisierung werden analoge Materialien in digitale Formate, sogenannte Digitalisate, überführt. Diese Formate können weitergegeben, gespeichert, archiviert und maschinell verarbeitet werden. Weiterlesen von Handschriften (Handwritten Text Recognition – HTR) geeignet ist, aber auch die Optical Character Recognition (OCR) unterstützt.

Methoden und Arbeitstechniken

Automatische Texterkennung (ATR)Mit der automatischen Texterkennung werden in Digitalisaten enthaltene gedruckte oder handschriftliche Texte in maschinenlesbare, durchsuchbare Texte umgewandelt.Bei gedruckten oder maschinengeschriebenen Werken erfolgt eine Optical Character Recognition (OCR), bei handschriftlichen Texten heißt das Verfahren Handwritten Text Recognition (HTR). Weiterlesen, Handwritten Text Recognition (HTR)Handwritten Text Recognition (HTR) bezeichnet die automatische Erkennung von Handschriften. Der Scan der Handschrift wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen (forTEXT). Weiterlesen, Optical Character Recognition (OCR)Optical Character Recognition (OCR) bezeichnet die automatische Texterkennung von gedruckten oder maschinengeschriebenen Werken. Der Scan des Durckwerks wird maschinell erfasst und in einen elektronischen Text umgeformt. Die Automatisierung beruht auf dem Erkennen von Mustern und Gesetzmäßigkeiten, dem so genannten maschinellen Lernen. Weiterlesen

Anwendungsbeispiel

Video: Was ist Transkribus? Transkribus, 2022, lizenziert unter CC-BY 4.0

Steckbrief

  • Systemanforderungen: Internetbrowser – webbasierte Anwendung
  • Stand der Entwicklung: Seit 2016, wird weiter entwickelt
  • Herausgeber: READ-COOP Genossenschaft
  • Lizenz: proprietär
  • Kosten: eingeschränkt kostenfrei – Texterkennung benötigt kostenpflichtige ‘Tokens’, manche Funktionen wie bestimmte Exportformate sind nur bei kostenpflichtigem Abonnement verfügbar
  • Weblink: https://app.transkribus.org/
  • Import und Export:
    • Import: Bilddateien (PNG, JPEG, TIFF)
    • Export: Textdatei, PDF mit eingebettetem Text, Microsoft-Word-Dokument, Page XML; weitere, nur in bestimmten, kostenpflichtigen Abonnements enthaltene Exportmöglichkeiten: TEITEI (Text Encoding Initiative) bezeichnet sowohl eine Organisationsiehe unter: https://tei-c.org/ als auch ein gleichnamiges Dateiformat. Letzteres basiert auf XML (Extensible Markup Language), einer weit verbreiteten Auszeichnungssprache, und hat sich in den Geisteswissenschaften als Standard zur Kodierung und Auszeichnung von Texten durchgesetzt. Mit Hilfe von TEI ist es möglich, maschinenlesbar Elemente eines Textes auszuzeichnen, wie beispielsweise Absätze oder Überschriften.Die Spezifikation von TEI - auch Guidelines genannt - kann unter https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html eingesehen werden. Zudem können Inhalte wie Personen- oder Ortsnamen als solche markiert und Anmerkungen eines kritischen Apparates eingefügt werden. Im Hinblick auf das Forschungsdatenmanagement ist es vorteilhaft, dass es sich bei TEI um ein Nur-Text-Format handelt, es also auch ohne spezielle Programme von Menschen interpretiert werden kann. Weiterlesen-XML, ALTO-XML, METS, Tabellenformat (CSV; Microsoft Excel), zusätzliche Einstellungsmöglichkeiten für den Export nach Microsoft Word und PDF
  • Sprachen:  Multilinguale Benutzeroberfläche, Modelle zur Texterkennung für verschiedene Sprachen inklusive Deutsch, Englisch und Latein. Für mehr Informationen zu den Modellen für die Texterkennung: https://readcoop.eu/transkribus/public-models/ 

Eigenschaften

1. Für welche Fragestellungen kann Transkribus eingesetzt werden?

Der Fokus von Transkribus liegt auf der Digitalisierung von Handschriften, d. h. die automatisierte Handschriftenerkennung (HTR) und alternativ bzw. ergänzend das manuelle Transkribieren. Zusätzlich wird auch eine optische Zeichenerkennung (OCR) für Druckschriften angeboten. Editionswissenschaftliche Projekte können in Transkribus ausgeführt werden, die Transkription kann aber auch als Vorbereitung für eine Weiterverarbeitung der Texte mit anderen digitalen Tools dienen; dazu stehen unterschiedliche, auch XML-basierte Exportformate zur Verfügung (s. o.). Transkribus bietet grundsätzlich auch die Möglichkeit, die erstellten Transkripte nach selbst gewählten Kategorien zu annotieren und größere Textmengen nach diesen Kategorien zu durchsuchen.

2. Welche Funktionalitäten bietet Transkribus ?

Transkribus bietet eine Vielzahl von Funktionen, darunter:

  • Archivierung von Textsammlungen und zugehöriger Scans oder Transkriptionen; Anreicherung mit Metadaten
  • Automatische und manuelle Segmentierung des Textes
  • Transkription
  • Tagsetzung, Kommentierung und Annotation
  • Nutzung vortrainierter Modelle für HTR, verfügbar für verschiedene Sprachen mit Fokus auf Deutsch und Englisch
  • Training eines eigenen HTR-Modells für eine bestimmte Schrift
  • OCR: Einlesen von lateinischer Schrift, Fraktur und Mischformen in verschiedenen Sprachen
  • Fehlerquotenmessung von HTR und OCR

Grundvoraussetzung für die Nutzung ist, dass hochwertige Scans verwendet werden. Falls keine geeignete Scan-Hardware zur Verfügung steht, verkauft Transkribus das sog. ScanTent, das in Verbindung mit der ausschließlich für Android verfügbaren App DocScan für einen Workflow mit direktem Upload in den Transkribusaccount genutzt werden kann (Kleber u. a. 2017). 

Transkribus kann auch komplexere Layouts (wie bspw. Tabellen oder Texte mit mehreren Spalten) erfassen. Die HTR bietet zudem die Möglichkeit einer manuellen Auszeichnung der Zeilen und ihrer Abfolge. Die Qualität der HTR- und OCR-Ergebnisse nimmt durch die Einführung neuer Modelle zu, Transkribus implementiert aktiv die neuesten Möglichkeiten aus dem Bereich KIKünstliche Intelligenz (KI), im Englischen Artificial Intelligence (AI), 'ist ein Teilgebiet der Informatik. Sie imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert' (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch technische Fortschritte in der verfügbaren Hardware und der Weiterentwicklung von Algorithmen des maschinellen Lernens haben sich die Fähigkeiten von KI in den letzten Jahren erheblich verbessert. Sie findet produktiven Einsatz beispielsweise im autonomen Fahren, der Steuerung von Fabriken und der Medizin (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch die neu aufgekommenen Large Language Models sind mächtige KI-basierte Werkzeuge zum Umgang mit Text entstanden. Weitere Einsatzgebiete sind auch die Erstellung und die Verarbeitung von Bildmaterial. Weiterlesen.

Transkribus ist eine etablierte Software, die in vielen DigitalisierungsprojektenBei der Digitalisierung werden analoge Materialien in digitale Formate, sogenannte Digitalisate, überführt. Diese Formate können weitergegeben, gespeichert, archiviert und maschinell verarbeitet werden. Weiterlesen genutzt wird. Im Vergleich zu anderen Lösungen ist es am leichtesten zu bedienen (s. u.) und bietet einen verhältnismäßig einfachen Einstieg. In der Vergangenheit gab es jedoch umfangreiche und häufige Änderungen an der Oberfläche. Hinzu kommt, dass zunehmend Funktionalitäten kostenpflichtig werden und Transkribus außerhalb des TEITEI (Text Encoding Initiative) bezeichnet sowohl eine Organisationsiehe unter: https://tei-c.org/ als auch ein gleichnamiges Dateiformat. Letzteres basiert auf XML (Extensible Markup Language), einer weit verbreiteten Auszeichnungssprache, und hat sich in den Geisteswissenschaften als Standard zur Kodierung und Auszeichnung von Texten durchgesetzt. Mit Hilfe von TEI ist es möglich, maschinenlesbar Elemente eines Textes auszuzeichnen, wie beispielsweise Absätze oder Überschriften.Die Spezifikation von TEI - auch Guidelines genannt - kann unter https://tei-c.org/release/doc/tei-p5-doc/en/html/index.html eingesehen werden. Zudem können Inhalte wie Personen- oder Ortsnamen als solche markiert und Anmerkungen eines kritischen Apparates eingefügt werden. Im Hinblick auf das Forschungsdatenmanagement ist es vorteilhaft, dass es sich bei TEI um ein Nur-Text-Format handelt, es also auch ohne spezielle Programme von Menschen interpretiert werden kann. Weiterlesen-Ökosystems operiert, wodurch die Weiterverarbeitung der Transkripte erschwert wird.

3. Ist Transkribus für Digital-History-Einsteiger*innen geeignet?

Checkliste√ / teilweise / –
Grafische Benutzeroberfläche
Intuitive Bedienbarkeitteilweise
Leichter Einstiegteilweise
Handbuch vorhanden
Videotutorials
Gibt es eine Nutzerbetreuung?

Transkribus ist prinzipiell verhältnismäßig intuitiv bedienbar, auch und gerade im Vergleich zu anderen Lösungen. Eine direkte Alternative ist eScriptorium, im Vergleich dazu ist Transkribus zwar deutlich einsteigerfreundlicher, jedoch wird die Benutzeroberfläche immer wieder teilweise stark verändert, was eine Umgewöhnung erfordert.
Durch vorgefertigte KIKünstliche Intelligenz (KI), im Englischen Artificial Intelligence (AI), 'ist ein Teilgebiet der Informatik. Sie imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert' (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch technische Fortschritte in der verfügbaren Hardware und der Weiterentwicklung von Algorithmen des maschinellen Lernens haben sich die Fähigkeiten von KI in den letzten Jahren erheblich verbessert. Sie findet produktiven Einsatz beispielsweise im autonomen Fahren, der Steuerung von Fabriken und der Medizin (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch die neu aufgekommenen Large Language Models sind mächtige KI-basierte Werkzeuge zum Umgang mit Text entstanden. Weitere Einsatzgebiete sind auch die Erstellung und die Verarbeitung von Bildmaterial. Weiterlesen-Modelle mit zunehmender Qualität können auch für HTR aus dem Stand gute Ergebnisse erzielt werden. Je nach Schriftart kann es jedoch noch immer notwendig sein, ein eigenes Modell zu trainieren bzw. ein Bestehendes anzupassen (sogenanntes Fine-tuning). Auch hier führt Transkribus durch den Prozess, es ist jedoch ein grundlegendes Verständnis für maschinelles Lernen'Machine Learning, bzw. maschinelles Lernen im Deutschen, ist ein Teilbereich der künstlichen Intelligenz. Auf Grundlage möglichst vieler (Text-)Daten erkennt und erlernt ein Computer die häufig sehr komplexen Muster und Gesetzmäßigkeiten bestimmter Phänomene. Daraufhin können die aus den Daten gewonnen Erkenntnisse verallgemeinert werden und für neue Problemlösungen oder für die Analyse von bisher unbekannten Daten verwendet werden.' (Glossar forTEXT) Weiterlesen notwendig, auch um Metriken wie Fehlerraten und deren Bedeutung für das Trainingsergebnis zu verstehen.

4. Unterstützt Transkribus kollaboratives Arbeiten?

☒  ja☐  nein

Textsammlungen (Collections) können mit anderen geteilt und dann gemeinsam transkribiert und annotiert werden. Nach dem Speichern der Transkriptionen und sonstiger Metadaten werden diese den anderen Nutzer*innen der jeweiligen Collection automatisch zugänglich gemacht. Gemeinsam können zudem Textsammlungen erweitert und Transkriptionsrichtlinien erstellt werden. Transkribus bietet ein rollenbasiertes Berechtigungsmodell, so dass Zugriffsberechtigungen pro Collection vergeben werden können.

Tutorials

Literatur und Quellenangaben

  • Helmchen, Julian. 2025. „Die Digitalisierung der spätmittelalterlichen Grundbücher Wiens mit Transkribus”. Mittelalter. Zuletzt aufgerufen am 4. Februar 2026. https://doi.org/10.58079/143do

  • Horstmann, Jan. 2018. „Transkribus“. forTEXT. Literatur digital erforschen. Zuletzt aufgerufen am 22. Januar 2026. https://fortext.net/tools/tools/transkribus.

  • Kleber, Florian, Markus Diem, Fabian Hollaus, und Stefan Fiel. 2017. „Mass Digitization of Archival Documents using Mobile Phones“. Proceedings of the 4th International Workshop on Historical Document Imaging and Processing, 65–70. New York: Association for Computing Machinery. https://doi.org/10.1145/3151509.3151526.

Zitierweise

Büdenbender, Stefan und Benz, Jacob. 2026. „Transkribus“. HISTOFOX. Das Informations-, Lern- und Lehrportal für Datenkompetenzen in den historisch arbeitenden Disziplinen. NFDI4Memory und Freie Universität Berlin. https://histofox.4memory-dataliteracy.de/tools/transkribus/