Topics

Uni Würzburg

Verantwortliche DARIAH-DE-Entwickler: Steffen Pielström

 

Beschreibung

Mit der zunehmenden Verfügbarkeit großer Text- und Datenbestände haben quantitative Methoden Eingang in eine Reihe von geisteswissenschaftlichen Disziplinen gefunden und erlauben zunehmend eine Ergänzung und Umformulierung qualitativer Ansätze um die Eigenschaften großer Datenressourcen zu nutzen. Besondere Bedeutung kommt dabei der Computerlinguistik als wichtige Unterdisziplin der Informatik zu. Jüngste Fortschritte in statistischen Ansätzen zur Erkennung von Worteinbettungen und Topic Models wurden von Gelehrten in verschiedenen Bereichen wie Geschichte, Literaturwissenschaft und Linguistik erfolgreich genutz. Die Schulungsmaterialien "TAToM - Text Analysis with Topic Models for the Humanities and Social Sciences" bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken. Topics ist also eine Bibliothek für Topic Modeling mit verschiedenen LDA-Implementierungen (Latent Dirichlet Allocation-Implementierungen).

Die Tutorials thematisieren die Vorbereitung eines Textkorpus für die Analyse und die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen. Sie nutzen in erster Linie die Programmiersprache Python, um mit den Textdaten umzugehen, sie zu organisieren, analysieren und visualisieren.

Die Inhalte in der Übersicht:

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg.

So ist beispielsweise eine Visualisierung der Topic Models möglich:

Word associated with topics ``austen-brontë`` corpus. See :ref:`topic_model_visualization`.

Zum Tutorial

Für weitere Informationen sowie einer Liste der angebotenen Tools des Topic Modellings mit direkter Verlinkung zu den Tutorials der einzelnen Tools finden sie hier. Zum Source Code auf GitHub gelangen Sie hier.