Logo

Suche in HISTOFOX

LerneinheitAutomatische Texterkennung

Ressourcen

Tools:

  • Transkribus
    • Webbasierte Software für einen umfassenden Workflow zur Transkription mit besonderem Fokus auf Handschriften; umfangreiche Nutzung von Machine Learning'Machine Learning, bzw. maschinelles Lernen im Deutschen, ist ein Teilbereich der künstlichen Intelligenz. Auf Grundlage möglichst vieler (Text-)Daten erkennt und erlernt ein Computer die häufig sehr komplexen Muster und Gesetzmäßigkeiten bestimmter Phänomene. Daraufhin können die aus den Daten gewonnen Erkenntnisse verallgemeinert werden und für neue Problemlösungen oder für die Analyse von bisher unbekannten Daten verwendet werden.' (Glossar forTEXT) Weiterlesen und KIKünstliche Intelligenz (KI), im Englischen Artificial Intelligence (AI), 'ist ein Teilgebiet der Informatik. Sie imitiert menschliche kognitive Fähigkeiten, indem sie Informationen aus Eingabedaten erkennt und sortiert' (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch technische Fortschritte in der verfügbaren Hardware und der Weiterentwicklung von Algorithmen des maschinellen Lernens haben sich die Fähigkeiten von KI in den letzten Jahren erheblich verbessert. Sie findet produktiven Einsatz beispielsweise im autonomen Fahren, der Steuerung von Fabriken und der Medizin (Fraunhofer-Institut für Kognitive Systeme IKS o. D.). Durch die neu aufgekommenen Large Language Models sind mächtige KI-basierte Werkzeuge zum Umgang mit Text entstanden. Weitere Einsatzgebiete sind auch die Erstellung und die Verarbeitung von Bildmaterial. Weiterlesen-Techniken für Automatic Text Recognition (ATR); ab gewissem Nutzungsumfang kostenpflichtig
  • eScriptorium
    • Webbasierte Software für einen umfassenden Workflow zur Transkription mit besonderem Fokus auf Handschriften; umfangreiche Nutzung von maschinellem Lernen für ATR, benötigt aber mehr eigenständiges Training der Modelle durch Nutzer*innen als z. B. Transkribus; Open Source, muss aber selbst oder durch Institution gehostet werden
  • Abby FineReader
    • Kommerzielles, kostenpflichtiges Tool für Optical Character Recognition (OCR), das insbesondere früh mit FrakturschriftFraktur bezeichnet eine typische Schriftgruppe des Mittelalters, bei der die Buchstabenbögen nicht rund sind, sondern aus einzelnen Teilen (Strichen) bestehen. Sie findet heute kaum noch Verwendung, nur im Namen mancher Zeitungen. Weiterlesen umgehen konnte; in vielen Digitalisierungsprojekten genutzt1Zum Tool: https://pdf.abbyy.com/de/
  • OCR4all
    • Webbasiertes Open Source Tool für OCR-Workflows; insbesondere für Fraktur- und Antiquaschriften des 19. Jahrhunderts geeignet; kann andere OCR-Entwicklungen aus der Wissenschaft wie OCR-D einbinden; muss durch Nutzer*in oder Institution aufgesetzt werden2Zum Tool: https://www.ocr4all.org/

Praxisbeispiel: