Logo

Suche in HISTOFOX

LerneinheitArchivierung

Übung 3

Sie erhalten über Ihr Universitätsarchiv Zugang zu Forschungsdaten eines Projektes von vor fünf Jahren, das Reichstagsreden mit Hilfe von Topic Modeling'Das Topic Modeling ist ein statistisches, auf Wahrscheinlichkeitsrechnung basierendes, Verfahren zur thematischen Exploration größerer Textsammlungen. Das Verfahren erzeugt 'Topics' zur Abbildung häufig gemeinsam vorkommender Wörter in einem Text.' (forTEXT) Weiterlesen, einem Verfahren des maschinellen Lernens'Machine Learning, bzw. maschinelles Lernen im Deutschen, ist ein Teilbereich der künstlichen Intelligenz. Auf Grundlage möglichst vieler (Text-)Daten erkennt und erlernt ein Computer die häufig sehr komplexen Muster und Gesetzmäßigkeiten bestimmter Phänomene. Daraufhin können die aus den Daten gewonnen Erkenntnisse verallgemeinert werden und für neue Problemlösungen oder für die Analyse von bisher unbekannten Daten verwendet werden.' (Glossar forTEXT) Weiterlesen in Themenbereiche eingeteilt hat. Im Rahmen einer Seminararbeit würden Sie gerne das damalige Vorgehen nachvollziehen und versuchen, die Ergebnisse zu reproduzieren. Welche Herausforderungen sehen Sie?

  • Qualität der Dokumentation: Ist überhaupt genau beschrieben, wie das Verfahren durchzuführen ist, welche Softwareversionen benötigt werden und wo Dateien abgelegt werden müssen, damit sie eingelesen werden können?
  • Können Sie die benötigten Versionen von zusätzlichen Programmen und Bibliotheken überhaupt installieren? Sind die exakten Versionen, die die Forschenden damals genutzt haben, überhaupt noch leicht zugänglich und können Sie diese bei sich installieren?
  • Ist der Programmcode verständlich geschrieben und ausreichend kommentiert, so dass Sie den Aufbau des Topic-Modeling-Systems nachvollziehen können?