TAToM: Text Analysis with Topic Models for the Humanities and Social Sciences

Ein Tutorial von Allen Riddell

Die Schulungsmaterialien "TAToM - Text Analysis with Topic Models for the Humanities and Social Sciences" bestehen aus einer Serie von Tutorials, die grundlegende Verfahren der quantitativen Textanalyse abdecken.

Die Tutorials thematisieren die Vorbereitung eines Textkorpus für die Analyse und die Exploration von Textsammlungen mit Verfahren wie Topic Modeling und Maschinellem Lernen. Die Tutorials behandeln sowohl einige grundlegende als auch fortgeschrittene Themen. Sie nutzen in erster Linie die Programmiersprache Python, um mit den Textdaten umzugehen.

Die Inhalte in der Übersicht:

  • Preliminaries & Getting started
  • Working with text
  • Preprocessing
  • Feature selection: finding distinctive words
  • Topic modeling with MALLET
  • Topic modeling in Python
  • Visualizing topic models
  • Classification, Machine Learning, and Logistic Regression
  • Case Study: Racine's early and late tragedies

Die Tutorials wurden von Allen Riddell für DARIAH-DE verfasst und im März 2014 in Version 1.0 veröffentlicht. Die Koordination lag bei Christof Schöch am Lehrstuhl für Computerphilologie der Universität Würzburg.

Rückmeldung zu den Tutorials ist immer willkommen, ebenso wie Hinweise auf Fehler. Bitte nutzen Sie hierfür den issue tracker auf GitHub.

 

Creative Commons Lizenzvertrag

Dieses Tutorial ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.