Breadcrumbnavigation

Expertenkolloquien

Bisherige Expertenkolloquien im Einzelnen

Dublin City University,

14.-15. Dezember 2015

Am 14. und 15. Dezember 2015 fand an der Dublin City University ein Expertenworkshop zum Einsatz von Topic Models und korpusanalytischen Ansätzen im Rahmen geistes- und kulturwissenschaftlicher Forschung, insbesondere der Literaturwissenschaften, statt. Vor dem Hintergrund zunehmend digital verfügbarer Textressourcen und der Verfügbarkeit quantitativer Verfahren, die zunehmend in der Lage sind, qualitative Analysemethoden zu ergänzen oder neu auszurichten, haben solche - meist computerlinguistischen - Verfahren in einer Vielzahl geisteswissenschaftlicher Disziplinen Einzug gehalten. Besonders hervorzuheben sind hierbei Ansätze zur Erstellung von Topic Models und Word Embeddings, die in jüngster Vergangenheit erfolgreich in diversen Kontexten eingesetzt wurden. Der Workshop richtete sich an erfahrene Anwender und Entwickler korpusgestützer Analyseverfahren im Allgemeinen, mit einem Schwerpunkt auf die semantische Erschließung von Textbeständen. Zusätzlich zur öffentlichen Ausschreibung wurde eine Gruppe ausgewiesener Experten aus dem Umfeld der DARIAH-EU Arbeitsgruppe Text & Data Analytics eingeladen.

Im Lauf des zweitägigen Workshop Programmes wurde eine Reihe von state-of-the-art Ansätzen zur semantischen Erschließung digitaler Textbestände präsentiert und diskutiert. Als Keynote zu Beginn des ersten Tages berichtete Sharon O'Brien von der Adoption computergestützter Verfahren in den Translationswissenschaften - einer Disziplin, die besonders früh mit technischen Verfahren zur Analyse sprachlicher Bedeutung in Kontakt gekommen ist und anhand der die Entwicklung einer integrierten, kognitiven Perspektive auf computergestützte Übersetzungsleistungen aufgezeigt wurde. Im Anschluss folgten die inhaltlich stärker korpusanalytisch ausgerichteten Beiträge – beispielsweise zur Analyse von Weblog Genres, zur automatischen Erkennung von Gender Bias in Tageszeitungen, oder zur Analyse von Übersetzungen als Text Reuse. Darüber hinaus gab es eine Reihe von Beiträgen, die sich speziell mit Topic Models beschäftigen – so zum Beispiel mit der extrinsischen Evaluation unbekannter Korpora, dem Einsatz zur Aufbereitung digitaler Archive, oder aber ein historischer Überblick zur Adoption von Topic Models im Rahmen der Digital Humanities und den damit verbundene methodologischen Fragen. Zusätzlich zur Keynote wurde das inhaltliche Programm durch eine Podiumsdiskussion zum Thema "Relating the Qualitative and the Quantitative" am Ende des ersten Tages ergänzt. Zum Abschluss des Workshops wurde am Ende des zweiten Tages Zeit zur Planung der DARIAH-EU Arbeitsgruppe vorgesehen und zukünftige – physische wie virtuelle – Treffen und Aktivitäten diskutiert.

Lehrstuhl für Computerphilologie der Universität Würzburg,

07.-08. Dezember 2015

Was macht einen Roman "komplex"? Kann man die "Komplexität" eines literarischen Textes messen, und ist Komplexität ein Merkmal, das bestimmte Autoren oder bestimmte Literaturgattungen von anderen unterscheidet? Um diesen und ähnlichen Fragen nachzugehen fand am 07. und 08. Dezember 2015 am Lehrstuhl für Computerphilologie der Universität Würzburg der DARIAH-DE Expertenworkshop "Complexity Measures in Stylometry" statt. Ziel der Veranstaltung war es, innerhalb der quantitativ arbeitenden Literaturwissenschaft eine Diskussion über das Thema "Textkomplexität" anzuregen und in gemeinsamen Gesprächen auszuloten, welche Rolle Indikatoren der Textkomplexität in der Stilometrie spielen könnten. Dabei sollte zudem demonstriert werden, wie der in DARIAH-DE entwickelte DARIAH-DKPro-Wrapper dazu beitragen kann, die Berechnung solcher Indikatoren wesentlich zu vereinfachen. Geladen waren Maciej Eder ( Institute of Polish Studies, Pedagogical University of Krakow ), Jeremi Ochab ( Department of Theory of Complex Systems, Jagiellonian University, Krakow), Allan Riddell ( Leslie Center for the Humanities, Dartmouth College ) und Nils Reiter ( Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart ).

Ziel und Kern der Veranstaltung war, die wissenschaftliche Diskussion unter den Teilnehmern anzuregen. Das Gerüst hierfür bildete eine Reihe von kurzen Vorträgen, die Denkanstöße zu verschiedenen Aspekten des Themas liefern sollten. In einem ersten Beitrag stellte Stefan Pernes die sogenannten "Readability Measures" und ihre historische Entwicklung vor. Wie solche Readability Measures und andere Komplexitätsindikatoren mit Hilfe des DARIAH-DKPro-Wrappers implementiert und als Stilmerkmale in einer Autorenschaftsanalyse genutzt werden können demonstrierte Steffen Pielström in seinem Vortrag "Complexity Measures as Style Markers". Jeremi Ochab demonstrierte des Weiteren wie sich das Repertoire zur linguistischen Beschreibung sprachlicher Komplexität noch zusätzlich um die Zeitreihenanalyse erweitern lässt. Wie Fotis Jannidis jedoch seinem Beitrag mit dem Titel "Formalizing the concept of complexity in literary language" darlegen konnte, lässt sich das Thema "Komplexität" kaum auf jene Aspekte reduzieren, die durch linguistische Metriken erfasst werden. Readability measures versuchen vor allem, den cognitive load beim Lesen und Verstehen einzelner Sätze abzubilden, wohingegen aus literaturwissenschaftlicher Sicht noch ganz andere Faktoren dazu beitragen, dass ein Text als komplex empfunden wird. Christof Schöch näherte sich im darauf folgenden Vortrag der Frage nach inhaltlicher Komplexität über das Verfahren des Topic Modeling. Den Abschluss schließlich bildete Allen Riddells Abendvortrag "Beyond Micro and Macro: Reassembling the History of the Novel", der zeigte, wie historische textexterne und materielle Faktoren zu einer genaueren statistischen Modellierung der Romangeschichte des 19. Jahrhunderts beitragen können. Als Fazit ist festzuhalten, dass im Rahmen des Workshops ein Überblick zu bisherigen Ansätze der Textkomplexität erlangt sowie weitere zu verfolgende Forschungsdesiderata - allen voran die Erhe-bung von Daten zur Leserwahrnehmung - definiert werden konnten.

Institut für Sprach- und Literaturwissenschaft an der Technischen Universität Darmstadt,

23.-24. Juli 2015

Am 23. und 24. Juli 2015 haben sich Mitarbeiterinnen und Mitarbeiter aus DARIAH-DE mit ihren Kollegen und Kolleginnen aus verschiedenen kooperierenden Projekten am Institut für Sprach- und Literaturwissenschaft an der Technischen Universität Darmstadt zu einer Diskussionsrunde zusammengefunden, um sich über Methodiken und Annotationsverfahren auszutauschen.

Hierbei stellten Projekte aus dem DARIAH-DE-Kontext (ePoetics, Natur & Staat, Relationen im Raum, eCodicology, SemToNotes) ihre Annotationspraxis vor.

Universität zu Köln, HKI, 28.-29. Mai 2015

During the last years, significant effort has been spent on an attempt to connect standardization efforts in the area of embedded markup as the TEI, with semantic categorization as expressed by, e.g., the CIDOC CRM.

This workshop looked at the abstract concepts behind this concrete attempts and tried to generalize it, looking at the relationships between all types of annotations reflecting object properties and the conceptual constructions behind ontological knowledge. We explored, how far such "ontological annotations" – which so far seem to have been conceptualized mainly on the linguistics level and, surprisingly, in the hard sciences – can be extended to other classes of Humanities' information.

TU Darmstadt, 23.-24. März 2015

Der von DARIAH-DE organisierte Expertenworkshop Annotation of Digital Media: Infrastructural Needs (Round Table II), der am 23. und 24. März 2015 an der Technischen Universität Darmstadt stattfand, beschäftigte sich mit der Etablierung von Standards für Annotationen in Kopplung an vorhandene Forschunginfrastrukturen.

Den Grundstein für die konstruktive Diskussionsrunde bildeten die Ergebnisse eines ersten Round Table, der im Juni 2014 von der HRA Heidelberg ausgerichtet wurde. Neben der definitorischen Abgrenzung, also der Frage, was Annotationen denn nun eigentlich sind, standen schon in diesem ersten Workshop Differenzierungen zwischen manuell und maschinell generierten Annotationen, verschiedenen Öffentlichkeitsgraden sowie zwischen Flüchtigkeit und Persistenz von Annotationen zur Diskussion. Daran anknüpfend wurde nun im Rahmen des zweiten Workshops versucht, zu konkretisieren, welche Kriterien und Ansatzpunkte für die Entwicklung von technisch-infrastrukturellen Lösungen relevant sind, um letztlich dem großen Ziel ein wenig näher zu kommen, Analyse- und Annotationsprozesse zusammenzuführen und hierdurch Zusammenhänge sichtbar zu machen  so wie es einst Niklas Luhmann mit seinem Zettelkasten vorgeführt hat.

Leibniz-Institut für Europäische Geschichte, 12.-13.Juni 2014

Das IEG Mainz als Partner in DARIAH-DE richtete einen zweitägigen Workshop zur Lizenzierung von Forschungsdaten aus und lud dazu HistorikerInnen ein, die selbst über Forschungsdaten verfügen, diese zu veröffentlichen planen und nach einer geeigneten Lizenz für ihre Daten suchen.

"Primärdaten als Grundlagen für Veröffentlichungen sollen auf haltbaren und gesicherten Trägern in der Institution, wo sie entstanden sind, für zehn Jahre aufbewahrt werden." Diese Empfehlung findet sich in den "Vorschlägen für gute wissenschaftliche Praxis" der Deutschen Forschungsgemeinschaft. Doch allein mit der Archivierung von Daten ist die Nachvollziehbarkeit wissenschaftlicher Ergebnisse nicht gegeben. Daneben ist die Bereitstellung von Daten eine mindestens genauso wichtige wie berechtigte Forderung. Ein möglichst freier, überregionaler und langfristiger Zugriff auf Daten wirft aber eine Reihe von rechtlichen Fragen auf, die mit Hilfe von Lizenzen geregelt werden können. Sie geben u. a. Antworten darauf, was Forschende mit Forschungsdaten anderer tun dürfen und was nicht.

Im ersten Themenblock beschäftigten sich die ExpertInnen mit den rechtlichen Grundlagen der Forschungsdatenlizenzierung und gingen hierbei auf die Themenkomplexe Urheberrechte, Nutzungsrechte und Datenschutz ein. Dabei wurden auch die praktischen Erfahrungen einzelner Projekte und Einrichtungen mit Lizenzlösungen für den nationalen und internationalen Datenaustausch diskutiert. Im Rahmen der zweiten Einheit bekamen die TeilnehmerInnen die Möglichkeit, Tools zu testen, die sie bei der Lizenzentscheidung und -erstellung unterstützen sollen. Zwischen diesen beiden Themenblöcken hatten die TeilnehmerInnen Gelegenheit dazu, von ihren Erfahrungen und Anforderungen zur Bereitstellung von Daten zu berichten. Die Ergebnisse des NutzerInnenfeedbacks aus den Workshops werden in die Weiterentwicklung dieser Tools einfließen.

  • Kurzbericht Wibke Kolbmann (DAI), Anna Aurast (IEG Mainz) „Forschungsdaten fu?r Andere. Lizenzen und Werkzeuge fu?r Historiker".

Cologne Center for e-Humanities, 18. Februar 2014

Thema des Workshops war die Anwendung des W3C­-Standards SKOS in den Digitalen Geisteswissenschaften. Dabei ging es um die Verfügbarkeit, Entwicklung und Benutzung von Werkzeugen zur Verwaltung, gemeinsamen Arbeit an und Publikation von digitalen kontrollierten Vokabularen, denen der SKOS­-Standard zugrunde liegt.

Darüber hinaus standen aber auch Aspekte der Informationsmodellierung bei der Erstellung solcher Vokabulare sowie Nutzungsszenarien für die Vokabulare selbst und die mit ihnen verknüpften Ressourcen im Fokus. Nicht zuletzt wurde auch die Frage nach dem Bedarf einer gemeinsamen organisatorischen und technischen Infrastruktur diskutiert, durch die die Auffindbarkeit, Sichtbarkeit und Verfügbarkeit erhöht und die Nachnutzung von partiellen oder ganzen Vokabularen ermöglicht würde. Eine solche Infrastruktur sollte auch als Informationsquelle für Forschungsprojekte dienen, die kontrollierte Vokabulare aufbauen, digitalisieren oder austauschen möchten und entsprechende Materialien zur Verfügung stellen. Der Workshop wollte GeisteswissenschaftlerInnen und EntwicklerInnen, die sich mit SKOS beschäftigen, zusammenbringen, ihnen die Möglichkeit zum Dialog geben und zur Entwicklung gemeinsamer Vorgehensweisen und Perspektiven beitragen.

TU Darmstadt, 17.-18. Februar 2014

In the course of its work towards a report on central procedures and methods in the Digital Humanities (R 2.2.3) and a taxonomy of DH activities (see "Capture and creation" in said report), DARIAH has identified workflows from the (retro-) digitisation to the transformation to TEI XML as a cross-disciplinary basis and prerequisite for further processing steps. The workflow from the retro-digitisation of printed works via the subsequent enhancement of digitised data with complex mark-up and towards standard-conformant formats such as TEI XML can be implemented in many different ways. These different paths necessitate the definition of requirements in terms of design and technology decisions which should ideally be taken early on in projects and written down in process and annotation guidelines. The potential steps and processes as well as criteria for decisions pro and contra certain types of mark-up, technologies and processes are currently little documented.

An important desiderate is a reflexion on and documentation of the complete path from the digitisation to formats for publication or further processing including relevant intermediary steps and decisions. In this expert workshop such workflow decisions and technological processes were critically discussed and tested on the basis of authentic examples of processing printed text data from the digitisation to an output into TEI XML and other potential data formats for further processing. The exemplary workflow in the workshop is one in which digitised data in a structured text format that is related to the TUSTEP-Format is to be transformed into TEI XML (P5) and taking into consideration other potential processing and annotation steps members of the community (and the workshop) might need to include in their specific workflow.

Department for Literary Computing, University of Würzburg, 13.-15. Januar 2014

For several decades now, stylometry has successfully been used for questions of authorship attribution in various contexts and languages. The body of experience with various stylometric procedures (preprocessing, distance measures, dimensionality reduction strategies) has steadily been growing.

A trend that has been emerging in more recent time is to use the methods developed for authorship attribution for other stylistic concerns and to develop new methods for them. Among these new stylistic concerns is the question of how categories other than authorship enter into the stylometric equation: categories like specific literary periods, literary genres and sub-genres, author gender, questions of form (narrative perspective or verse/prose), and theme.

Taking into account these new categories in stylometric research, whether it aims to control such additional style signals or to analyse them directly is concerned with at least two issues: one issue is how the "signal" of any one such category can be isolated from the other signals, with which it is usually deeply intertwined due to the highly complex and connected nature of language; another issue is how results from stylometric analyses of such categories can be validated in the absence of undisputed and/or a-historical reference categories. What is more, the categories from literary theory like genre or period are highly synthetic, complex concepts which would most likely need to be decomposed before they can be usefully related to stylistic trends and patterns.

This expert workshop explored such issues, discussed relevant recent findings from various languages and literary traditions and developed strategies to tackle the validation issue, both on a technical level (how can correlations be established, measured and compared between unsupervised groupings and existing categories) and on a humanistic level (how can the dynamic relationship between synthetic literary categories and empirical clusters be modeled usefully?).

Europäische Geschichte Mainz, 10.-11. November 2013

Places (and spaces) play an important role in many areas of humanities themes. The so-called spatial turn has further raised the importance of topographical information in the humanities. By categorizing places into types one can abstract from concrete places and address certain types of places collectively. In order to automatically sort, retrieve, display, and generally process places on the basis of their types, and in order to exchange information on places, a controlled vocabulary of place types is required.

A controlled vocabulary supports comparisons by abstracting from peculiarities and by providing language-independent terms. This is particularly beneficial to comparative historical research, as all comparisons depend on abstract categories to identify commonalities of individual historical phenomena. A controlled vocabulary of spatial categories and places allows for the systematic allocation of common attributes to these phenomena. On a computational level, it enables interoperability, reuse, and sustainability of the collected data.

Defining a controlled vocabulary of historical place types is an inherently interdisciplinary task, because a useful vocabulary must meet both scholarly and computational requirements. In order to be accepted by the scholarly community, it must be based on a broad consensus. The main challenge is to find a suitable level of abstraction; this challenge can only be resolved by close collaboration between experts from the humanities and from the computing sciences, as in the proposed expert workshop. It must also be informed by current and potential historical research questions.

The goal of the expert workshop was to create guidelines for the development of a controlled vocabulary of place types for historical research and a first version of a core vocabulary. The initial focus was on the medieval and early modern periods in Europe. The vocabulary will take relevant standards into account. Its structure will aim for interoperability with complementary vocabularies, such as GeoNames and TGN. The guidelines and the vocabulary will be published as a report in the DARIAH Working Papers series and will serve as the basis for further work on the vocabulary and its adoption in historically oriented research. The guidelines and the core vocabulary will also be usable the basis for a prototypical implementation in the DARIAH-DE GeoBrowser.

Berlin-Brandenburgische Akademie der Wissenschaften, 17.-18. Juni 2013

Identify the state of the art and further problems in making annotations an interoperable, web based resource which could be processed within a digital research environment. Developing an understanding about which role annotations may play in digitally supported research between e-Science and traditional humanities research practices. Are there common annotations practices in the humanities disciplines? How are interoperable annotations related to native digital research methods in the humanities?

The aims of the workshop were, among others:

  • Building common approaches;
  • fostering interoperability of annotations leading into a document of best practices;
  • defining strategies for the leverage of annotations from closed software or from proprietary standards;
  • and an articulated vision of the importance and roles annotations can play for humanities research in a digital environment to promote the topic of annotation.

 

Lehrstuhl für Computerphilologie, Universität Würzburg, 22.-23. November 2012

The workshop focused on methods and tools in the domain of quantitative analysis of large text collections in the context of literary history. The aim of this workshop was to consider recent developments and issues in quantitative text analysis and their relevance to the way we understand and practice literary history. Such developments in quantitative text analysis include the refinement of authorship attribution studies, of clustering techniques for literary genre analysis, and of other stylometric or computational approaches to literature. One of the issues was on what level of analysis computational approaches to text analysis can usefully focus, i.e. low-level surface features of texts or higher-level semantic or structural features, and how to mediate between these two poles. Another issue was how to make use of text which either contains structural encoding, is enriched with linguistic information, or provides bibliographical metadata to be taken into account in the analysis. The workshop focused on the relevance of this type of issues for the analysis of literary genres, the evolution of stylistic or narrative features, and related topics, with a focus on their bearing on literary history.

Cookies und Trackinghelfen uns, Ihnen auf unserer Website ein besseres Erlebnis zu ermöglichen.