DARIAH-DE Forschungsdaten-Förderationsarchitektur (DFA)

Die DARIAH-DE „Forschungsdaten-Förderationsarchitektur" (DFA) ist die Bezeichnung für Dienste und Werkzeuge, mit deren Hilfe Forschungsdaten und Sammlungsbeschreibungen aus unterschiedlichen Quellen, wie beispielsweise von Kulturinstitutionen, Bibliotheken, Archiven, Forschungseinrichtungen und Rechenzentren, gefunden und für Analysen verwendet werden können.

Suchanfragen in einem wissenschaftlichen Kontext erfordern eine hohe Genauigkeit in der Bestimmung der jeweiligen Parameter. Idealerweise sollte es ForscherInnen möglich sein, ihre wissenschaftliche Recherche im digitalen Umfeld auf bestimmte Quellen zu beschränken. Auf diese Weise können XML-Strukturen von Datensätzen unterschiedlicher Provenienz abgefragt und so die Interoperabilität von verschiedenen Daten- und Metadatenschemata gewährleistet und zudem heterogene Daten- und Metadatenquellen durch eine gemeinsame Referenz für Orte, Namen, Daten oder andere logische Einheiten korreliert werden.

Abbildung 1: Schematischer Aufbau der DARIAH-DE Data Federation Architecture

Der in der obigen Grafik visualisierte Aufbau der DARIAH-DE „Forschungsdaten-Förderationsarchitektur" umfasst die Indizierung und Anzeige von Forschungsdaten, die Bereitstellung eines nachhaltigen und anhaltenden Zugangs für die Verwendung von  technischen Tools, um Beschreibungen und Inhalte digitaler Sammlungen zu vergleichen, sowie eine umfassende Suchfunktionalität für heterogen strukturierte Datensammlungen und Archive zu ermöglichen.

Die  DARIAH-DE Forschungsdaten-Förderationsarchitektur ist modular aufgebaut, kann jederzeit durch weitere Komponenten erweitert werden und beinhaltet zum jetzigen Zeitpunkt folgende Tools und Dienste:

In der Collection Registry können sowohl Informationen von Forschungsdaten- Sammlungen in DARIAH-DE nachgewiesen, als auch neue Sammlungsinformationen registriert werden.

Das DARIAH-DE Repository erlaubt es, Forschungsdaten zu speichern, diese mit Metadaten zu versehen, durch die Nutzung von Persistent Identifiers eine permanente, maschinenlesbare Referenzierung zu gewährleisten und durch die Generische Suche aufzufinden. Ebenfalls ist es mithilfe des Repositorys möglich, Datensammlungen nachhaltig und sicher zu archivieren.

Mit Hife des DARIAH-DE Publikator können Forschungsdaten komfortabel per graphischer Oberfläche in das DARIAH-DE Repository eingespielt und mit Metadaten ausgezeichnet werden. Diese können dann als Kollektion in die Collection Registry eingetragen werden und sind dann in der Generischen Suche nachgewiesen.

Die Schema-Registry ist der Ort, an dem spezifische Metadatenstandards hinterlegt und Crosswalks zwischen Metadaten-Schemata abgespeichert, langfristig verwaltet und bei Bedarf kombiniert können. Damit bietet sie eine konzeptionelle Hilfestellung beim Mapping von Forschungsdaten unterschiedlicher Herkunft und Beschaffenheit.

Die Crosswalk Registry ist ein grafisches Tool für ForscherInnen in den Kunst-, Geistes- und Sozialwissenschaften, um verschiedene in der Schema-Registry gespeicherte Metadatenstandards miteinander zu verbinden. Diese Zuordnung ermöglicht eine automatisierte Übersetzung von einem Datenschema in ein anderes. Aus diesem Grund bietet die Crosswalk Registry die ideale Möglichkeit, um verschiedenen Sammlungen durchsuchen zu können. Die Funktionalität der Crosswalk  Registry wird im folgenden Screenshot der Benutzeroberfläche anschaulich gemacht:

Abbildung 2: Crosswalk Mapping in der Crosswalk Registry.

Die Generische Suche bietet ein Front-End für die in der Collection Registry und dem DARAH-DE Repository hinterlegten Daten. Anhand der Generischen Suche können die verteilten Datensätze durchsucht werden. Zudem ist es mit Hilfe der Generischen Suche möglich, die verzeichneten Metadaten zu suchen, diese Suche personalisiert zu speichern und zu einem späteren Zeitpunkt anzupassen oder zu verfeinern.

Der Epic-PID Service sorgt als Basisdienst für eine dauerhafte Referenzierbarkeit der Forschungsdaten über so genannte ‚Persistente Identifikatoren'. Letztere sind Dienste, die eine nachhaltige Referenz auf Daten gewährleisten. So bleiben Verweise, beispielsweise in wissenschaftlichen Publikationen, selbst dann stabil, wenn sich der Speicherort der referenzierten Daten ändert. DARIAH-DE verwendet PIDs des European Persistent Identifier Consortium (EPIC).

Dieses Set an digitalen Werkzeugen bildet eine modulare Softwarearchitektur, von denen jeder Dienst den Zugriff auf heterogene Datenquellen verschiedener Provenienz ermöglicht. Neue Methoden der Analyse von verteilten Datensammlungen sind dadurch gegeben.