DIGIVOY: TextGrids Digitale Bibliothek mit Voyant entdecken

Universität Würzburg – Institut für deutsche Philologie – Lehrstuhl für Computerphilologie und Neuere Deutsche Literaturgeschichte

Verantwortliche: Fotis Jannidis, Steffen Pielström
Ansprechpartner: Steffen Pielström

 

Beschreibung

Der fachwissenschaftliche Dienst "TextGrids Digitale Bibliothek mit Voyant entdecken" bildet eine Brücke zwischen dem TextGridRepository (http://textgridrep.de) und den Voyant-Tools (http://voyant-tools.org). Die von DARIAH-DE in Zusammenarbeit mit TextGrid und Voyant entwickelte Anwendung erlaubt es, die Inhalte des TextGridRep, d.h. insbesondere die umfangreiche Digitale Bibliothek mit den Werken von gut 600 Autoren, direkt mit den verschiedenen Voyant-Tools zu entdecken, zu analysieren und zu visualisieren. Man kann die Nutzung der Anwendung in drei Schritte untergliedern: 

(1) Zunächst sucht man im TextGridRep nach den Texten, die man analysieren möchte und nutzt dabei die vorhandenen Suchfunktionen.

(2) Nach der Auswahl kann man einige Optionen festlegen: Einerseits kann man bestimmte Teile der ausgewählten Texte unterdrücken, bspw. Sprechernamen oder editorische Anmerkungen, die die Analyse stören könnten. Andererseits kann man auswählen, welches der zahlreichen Voyant-Tools zur Anwendung kommen soll.

(3) Im letzten Schritt werden die Texte mit der gewünschten Präprozessierung in dem ausgewählten Voyant-Tool visualisiert. Der Demonstrator macht es somit leichter, die Texte aus der Digitalen Bibliothek zu entdecken und weiter zu verarbeiten, und erlaubt durch die Präprozessierung genauere Abfragen.

Die Anwendung ist in einer Beta-Version unter folgendem Link erreichbar: https://dariah.zam.kfa-juelich.de/textgridrep-website/


Wir freuen uns über jede Rückmeldung, gerne kann hierfür auch die entsprechende Nutzerumfrage verwendet werden: https://docs.google.com/spreadsheet/viewform?formkey=dGdyN0tXaTRmZmVpZEVCN0F0U0cxdkE6MA#gid=0 .

 

Die drei Komponenten von DIGIVOY

1. TextGrids Digitale Bibliothek: umfangreiche Textsammlung

TextGrids Digitale Bibliothek ist ein umfangreiches Repositorium von deutschsprachigen Texten. Es sind insbesondere literarische Texte enthalten, aber auch philosophische Texte sowie Wörterbücher. Es handelt sich jeweils um die gesammelten Werke jeder Autorin bzw. jedes Autors.
Neben Texten aus dem deutschsprachigen Raum sind auch ins Deutsche übersetzte Texte anderer europäischer AutorInnen vorhanden. Die Sammlung umfasst derzeit die Werke von rund 700 LiteratInnen und 250 PhilosophInnen. Alle Texte basieren auf zuverlässigen, zitierfähigen Studienausgaben und liegen in einem einheitlichen TEI-Format vor. Das TextGridRep(ository) bietet Nutzern auch ohne Registrierung für das TextGridLab(oratory) freien Zugang zu den Texten an. Die Texte können im Repository über einen Katalog gesucht oder über eine Liste der Autoren entdeckt werden. Die Texte können als HTML im Browser angezeigt, ihre Metadaten eingesehen, und der TEI-Quelltext heruntergeladen werden.
Die Digitale Bibliothek ist unter dem folgenden Link verfügbar: http://textgridrep.de/.
Außerdem bietet TextGrid einige Informationen zur Digitalen Bibliothek an:
http://www.textgrid.de/Digitale-Bibliothek.

 

2. Voyant Tools: flexibles Explorations- und Analysetool

Die Grundidee der Voyant Tools ist es, web-basierte, vielfältige explorative und analytische Zugänge zu beliebigen Texten oder Textsammlungen zu ermöglichen. Dabei besteht Voyant aus einer Vielzahl unterschiedlicher Einzeltools: alle Tools können entweder separat, oder einige auch in einem Toolset gemeinsam genutzt werden.
Die Voyant Tools erlauben es, Texte aus verschiedenen Quellen sehr einfach in die Tools zu laden, bestimmte Eigenschaften und Strukturen zu entdecken und zu visualisieren. Texte können in ein Textfeld hineinkopiert, über die Angabe ihrer URL geladen oder von der Festplatte hochgeladen werden, wobei diverse Formate zulässig sind, darunter HTML, TXT und RTF.
Die Voyant Tools sind unter folgendem Link verfügbar: http://voyant-tools.org (derzeit in Version 3.0 beta). Eine Voyant-Dokumentation ist ebenfalls verfügbar: http://docs.voyant-tools.org/start/.

 

3. DIGIVOY: Verbindung von Digitaler Bibliothek und Voyant Tools

DIGIVOY ermöglicht eine direkte, komfortable Verbindung zwischen TextGrids Digitaler Bibliothek und den Voyant Tools. Dadurch können die beiden Angebote gemeinsam genutzt werden, wobei beide Angebote hierdurch noch besser nutzbar werden.
DIGIVOY erweitert das TextGridRep durch drei Funktionen: Erstens eine Funktion zur Auswahl mehrerer Texte aus der Digitalen Bibliothek in einem „Basket". Zweitens eine Funktion, um die ausgewählten Texte für die Analyse vorzubereiten. Und drittens eine Funktion, um die ausgewählten und vorbereiteten Texte mit einem bestimmten Voyant-Tool zu analysieren.
Der Zugriff auf DIGIVOY erfolgt über eine erweitere Version des TextGridRep, die unter folgender Adresse erreichbar ist: https://dariah.zam.kfa-juelich.de/textgridrep-website/.
DIGIVOY nutzt eine eigene Installation der Voyant-Tools, wodurch ausreichend Server-Ressourcen verfügbar sind: https://dariah.zam.kfa-juelich.de/voyant/ (Version 1.0).
Diese Installation ist auch unabhängig von TextGrid frei nutzbar. DIGIVOY ist derzeit auch in der Beta-Version des offiziellen TextGridRep verfügbar: http://www.textgridrep.de/beta/.

 

Verwendung von DIGIVOY

1. Auswahl eines oder mehrerer Texte in der Digitalen Bibliothek

Texte können im TextGridRep entweder über die Suchfunktion gezielt gesucht werden, oder über die Liste der AutorInnen entdeckt werden. In beiden Fällen ist es möglich, einen einzelnen Text direkt für die Analyse mit Voyant auszuwählen, indem man in dem Bereich unter den Metadaten für einen Einzeltext auf den Link „Send to..." klickt. Diese Funktion ist auf dem folgenden Screenshot sichtbar (siehe Abbildung 1). Der „Send to..."- Link führt direkt zum nächsten Schritt, der Vorbereitung der Texte.

Abbildung 1: Auswahl der Texte.

 

Möchte man mehrere Texte auswählen und mit Voyant analysieren, setzt man dagegen ebenfalls im Bereich unter den Metadaten ein Häkchen bei „in basket" (ebenfalls in Abbildung 1 sichtbar). Nachdem man dies bei allen gewünschten Texten getan hat, kann
man zum Reiter „Basket" wechseln. Der „Basket" erlaubt es nun, die Liste der ausgewählten Texte zu kontrollieren (siehe Abbildung 2). Gegebenenfalls können einzelne Texte gelöscht (durch Klicken auf das rote Kreuzchen) oder der Basket ganz geleert werden (durch Klicken auf „Clear"). Ist man mit dem Inhalt des Baskets zufrieden, führt ein Klick auf „Send" zum nächsten Schritt, der
Vorbereitung der Texte.

Abbildung 2: der „Basket".

 

2. Vorbereitung der Texte (Präprozessierung)

Die Vorbereitung der Texte erlaubt es, gezielt bestimmte Teile der Texte auszuwählen oder auszuschließen. Das ist für die anschließende Analyse mit den Voyant Tools wichtig, damit die Analysen möglichst aussagekräftig sind und nicht durch Textanteile gestört werden, die für eine bestimmte Fragestellung nicht relevant oder sogar störend sind.
Der Bereich der Texte mit dem „teiHeader", der die Metadaten enthält, wird automatisch entfernt. Außerdem werden automatisch die deutschen Stopwords aktiviert (dadurch werden häufige Funktionswörter ohne semantischen Inhalt entfernt).
Je nach Fragestellung kann es aber auch wichtig sein, andere Textanteile vor der Analyse zu löschen (siehe Abbildung 3; für Details zur Kodierung der Texte, siehe außerdem den Hinweis am Ende dieses Dokuments).

Abbildung 3: Vorbereitung der Texte sowie Auswahl des Voyant-Tools.

 

Folgende Textbestandteile können gelöscht werden:

  • CastList – Liste der dramatischen Figuren (in Dramen)
  • Desc – Description (beinhaltet meist das Element title)
  • figure – Bilder bzw. Bildunterschriften
  • head – Überschriften (Kapitel oder Akte und Szenen)
  • note – Anmerkungen der Editoren
  • speaker – Sprechernamen (in Dramen)
  • stage – Bühnenanweisungen (in Dramen)
  • title – Titel eines Buches oder anderen Werkes, oder eines Kapitels

Aktiviert man ein Häkchen vor einem Textbestandteil, wird dieser aus dem Text gelöscht. Bei der Analyse von Dramen kann es beispielsweise sinnvoll sein, die „CastList" sowie die „speaker" zu entfernen, damit die Analyse der Wortfrequenzen nicht durch die sehr häufigen, aber semantisch unter bestimmten Umständen weniger relevanten Sprechernamen gestört wird.

 

3. Verschiedene Voyant Tools auswählen

Auf der gleichen Seite, auf der die Vorbereitung der Texte geschieht, kann nun das gewünschte Voyant Tool ausgewählt werden (siehe erneut Abbildung 3). Nimmt man keine Veränderung vor, wird das Toolset verwendet. Alle anderen in der Dropdown-Liste vorhandenen Tools sind Einzeltools. Interessante Einzeltools sind unter anderem „Bubblelines" oder „Cirrus". (Nicht alle Tools funktionieren mit gleichbleibender Zuverlässigkeit.)
Nach der Auswahl des gewünschten Tools klickt man auf „Send", und die gewählten Texte werden mit den gewünschten Optionen mit Voyant geöffnet. Die eigentliche Exploration und Analyse findet dann mit den Voyant Tools statt. Zur Verwendung der Voyant Tools bietet die Dokumentation von Voyant zahlreiche Hinweise.

 

Nutzen von DIGIVOY

Beide vorhandenen Ressourcen und deren NutzerInnen profitieren von ihrer Verbindung durch DIGIVOY: Ein ganz neuer, explorativer und analytischer Zugang zu den Texten der Digitalen Bibliothek ist nun nur noch wenige Klicks entfernt. Darüber hinaus wird die TEI-Auszeichnung des TextGridRep für die Vorbereitung der Texte flexibel und gewinnbringend genutzt. Schließlich kann Voyant nun direkt mit einer großen Auswahl deutsch-sprachiger Texte gewissermaßen „bespielt" werden.
Der praktische und methodische Gewinn für LiteraturwissenschaftlerInnen, HistorikerInnen, PhilosophInnen und KulturhistorikerInnen liegt vor allem darin, dass die teils aufwändige Präprozessierung von Texten aus Textrepositorien entfällt bzw. sehr einfach gemacht wird. Die Exploration der Texte auf quantitativer Basis wirft Fragen für die (klassische) Lektüre oder auch für weitere avanciertere Analysen auf. Man muss sich allerdings der  Einschränkung bewusst sein, dass alle Wortfrequenz-Analysen mit nicht-lemmatisierten Texte vorgenommen werden.


Hinweise zur Kodierung der Elemente (für die Präprozessierung)

Bei den Transformationen wurde das ursprüngliche Zeno-XML-Markup in die entsprechenden TEI-Tags umgewandelt. Daneben wurde versucht, auf der Basis bestimmter im Markup oder im Text auftretender Strukturen weiteres Markup hinzuzufügen (z.B. lg-Gruppierung, speaker etc.). Die dabei angewandten Heuristiken sind auf Grund der eingeschränkten Überschaubarkeit so großer Datenmengen schematisch und unspezifisch gehalten, weshalb es in einigen Fällen zu einer fehlerhaften Interpretation kommen kann. Um solche oder ähnliche Fehlerquellen schrittweise zu entfernen, wird der Literaturordner von uns kontinuierlich überarbeitet und steht deshalb in verschiedenen Versionen zu Verfügung.