Breadcrumbnavigation

Langfristige Datensicherung

Langfristige Datensicherung

Daten, die nur selten oder erst viel später wieder genutzt werden sollen, beispielsweise Dateien eines abgeschlossenen Projekts oder Datensammlungen, können auf kostengünstigen Speichern dauerhaft ausgelagert werden. So wird der durch Disk Quotas begrenzte Massenspeicher durch die große Datenmenge nicht belastet. Dafür wird ein Hierarchical-Storage-System, HSM, bereitgestellt. Dieses umfasst einen Plattenspeicher und ein Kassetten-Robotsystem. Der Plattenspeicher dient als Zwischenablage archivierter Daten. Ins Archiv verschobene Daten werden später automatisch an zwei redundanten Standorten auf Kassetten kopiert. Die Verweildauer einer Datei in der Zwischenablage ist abhängig von ihrer Größe und dem Grad der Füllung des Zwischenspeichers. Die langfristige Datensicherung für DARIAH-DE wird von der GWDG bereitgestellt.

Jedem Benutzer-Account ist ein persönliches Archiv zugeordnet, das sowohl unter Windows als auch unter UNIX/Linux verwendet werden kann. Mit Hilfe spezieller Speicherverwaltungssoftware ist ein gewohnter Zugriff auf die im Archiv befindlichen Dateien realisiert. Bis auf längere Zugriffszeiten (einige Minuten) bleibt dem Nutzer verborgen, dass es sich bei dem verwendeten Speichermedium letztendlich um Bandkassetten handelt. 

 

Hinweise zum sinnvollen Umgang mit dem Archiv:

Die meisten Probleme im HSM-System der GWDG werden immer wieder dadurch verursacht, dass zu viele kleine Dateien gespeichert werden, anstatt sie vorher geeignet in großen Containern (tar, ZIP) zusammenzufassen. Das Problem entsteht erst bei der automatischen Migration der Dateien aus dem Disk-Cache auf Magnetbandkassetten: Die einzelnen Dateien werden unabhängig voneinander (aus der Sicht des Benutzers zusammenhangslos) auf verschiedene Kassetten geschrieben.

Beim späteren Leseversuch dieser archivierten Dateien muss dann im schlechtesten Fall auf jede einzelne Datei mehrere Minuten gewartet werden, da der Bandroboter für jede einzelne Datei eine andere Kassette laden, spulen und lesen muss. Es lässt sich leicht überschlagen, dass das Rückholen von tausend Dateien bereits länger als einen Tag dauern kann. Während dieser Zeit wäre der Roboter ausschließlich mit dieser (aus Benutzersicht einen zusammenhängenden) Operation beschäftigt, die in Wahrheit aber aus tausend einzelnen, jeweils langwierigen, weil mechanischen Operationen besteht.

Es wird daher empfohlen, nicht  ganze Dateibäume oder Dateigruppen ins Archiv zu kopieren. Dateibäume oder -gruppen sollten vorher mit ZIP (bzw. unter UNIX/Linux mit tar) zu einem Container zusammengefasst werden, und dieser kann dann bedenkenlos dem Archiv übergeben werden. 

Footer Standarddienste

 

Sind noch Fragen offen geblieben oder möchten Sie weitere Informationen? Sie erreichen uns unter info@de.dariah.eu.