Breadcrumbnavigation

data-federation-architecture

DARIAH-DE Forschungsdaten-Föderationsarchitektur (DFA)

Die DARIAH-DE „Forschungsdaten-Föderationsarchitektur" (DFA) ist die Bezeichnung für Dienste und Werkzeuge, mit deren Hilfe Forschungsdaten und Sammlungsbeschreibungen aus unterschiedlichen Quellen, wie beispielsweise von Kulturinstitutionen, Bibliotheken, Archiven, Forschungseinrichtungen und Rechenzentren, gefunden und für Analysen verwendet werden können.

Suchanfragen in einem wissenschaftlichen Kontext erfordern eine hohe Genauigkeit in der Bestimmung der jeweiligen Parameter. Idealerweise sollte es ForscherInnen möglich sein, ihre wissenschaftliche Recherche im digitalen Umfeld auf bestimmte Quellen zu beschränken. Auf diese Weise können XML-Strukturen von Datensätzen unterschiedlicher Provenienz abgefragt und so die Interoperabilität von verschiedenen Daten- und Metadatenschemata gewährleistet und zudem heterogene Daten- und Metadatenquellen durch eine gemeinsame Referenz für Orte, Namen, Daten oder andere logische Einheiten korreliert werden.

Abbildung 1: Schematischer Aufbau der DARIAH-DE Data Federation Architecture

Der in der obigen Grafik visualisierte Aufbau der DARIAH-DE „Forschungsdaten-Förderationsarchitektur" umfasst die Indizierung und Anzeige von Forschungsdaten, die Bereitstellung eines nachhaltigen und anhaltenden Zugangs für die Verwendung von  technischen Tools, um Beschreibungen und Inhalte digitaler Sammlungen zu vergleichen, sowie eine umfassende Suchfunktionalität für heterogen strukturierte Datensammlungen und Archive zu ermöglichen.

Die  DARIAH-DE Forschungsdaten-Föderationsarchitektur ist modular aufgebaut, kann jederzeit durch weitere Komponenten erweitert werden und beinhaltet zum jetzigen Zeitpunkt folgende Tools und Dienste:

In der Collection Registry können sowohl Informationen von Forschungsdaten- Sammlungen in DARIAH-DE nachgewiesen, als auch neue Sammlungsinformationen registriert werden.

Das DARIAH-DE Repository erlaubt es, Forschungsdaten zu speichern, diese mit Metadaten zu versehen, durch die Nutzung von Persistent Identifiers eine permanente, maschinenlesbare Referenzierung zu gewährleisten und durch die Generische Suche aufzufinden. Ebenfalls ist es mithilfe des Repositorys möglich, Datensammlungen nachhaltig und sicher zu archivieren.

Mit Hife des DARIAH-DE Publikator können Forschungsdaten komfortabel per graphischer Oberfläche in das DARIAH-DE Repository eingespielt und mit Metadaten ausgezeichnet werden. Diese können dann als Kollektion in die Collection Registry eingetragen werden und sind dann in der Generischen Suche nachgewiesen.

Das Data Modeling Environment (DME) ist der Ort, an dem Daten modelliert und Mappings zwischen Datenmodellen abgespeichert, langfristig verwaltet und bei Bedarf kombiniert werden können. Damit bietet sie eine konzeptionelle Hilfestellung für ForscherInnen in den Kunst-, Geistes- und Sozialwissenschaften, um heterogene Daten miteinander zu verbinden und so Ineroperabilität herzustellen.

Mappings ermöglichen eine automatisierte Übersetzung von Daten aus einem Modell in ein anderes. Aus diesem Grund bildet die DME die Grundlage, um beispielsweise in der generischen Suche verschiede Sammlungen durchsuchen zu können. Die Funktionalität des DME in Bezug auf das Mapping zwischen Datenmodellen wird im folgenden Screenshot der Benutzeroberfläche anschaulich gemacht:

Abbildung 2: Mapping im Data Modeling Enviroment

Die Generische Suche bietet ein Front-End für die in der Collection Registry und dem DARAH-DE Repository hinterlegten Daten. Anhand der Generischen Suche können die verteilten Datensätze durchsucht werden. Zudem ist es mit Hilfe der Generischen Suche möglich, die verzeichneten Metadaten zu suchen, diese Suche personalisiert zu speichern und zu einem späteren Zeitpunkt anzupassen oder zu verfeinern.

Der Epic-PID Service sorgt als Basisdienst für eine dauerhafte Referenzierbarkeit der Forschungsdaten über so genannte ‚Persistente Identifikatoren'. Letztere sind Dienste, die eine nachhaltige Referenz auf Daten gewährleisten. So bleiben Verweise, beispielsweise in wissenschaftlichen Publikationen, selbst dann stabil, wenn sich der Speicherort der referenzierten Daten ändert. DARIAH-DE verwendet PIDs des European Persistent Identifier Consortium (EPIC).

Dieses Set an digitalen Werkzeugen bildet eine modulare Softwarearchitektur, von denen jeder Dienst den Zugriff auf heterogene Datenquellen verschiedener Provenienz ermöglicht. Neue Methoden der Analyse von verteilten Datensammlungen sind dadurch gegeben.