Forschungsdatenbank DaRUS: Die 39 Dataversen der Universität Stuttgart

Forschende der Universität Stuttgart nutzen erfolgreich die zentrale Forschungsdatenbank DaRUS. Im Februar wurde der 1000. Datensatz veröffentlicht.

Was haben die Radio-Geräuschmessungen des Flying Laptops, nanoskopische Argontröpfchen und die Rolle der dichtebedingten CO2-Auflösung in der Verkarstung gemeinsam? – Abgesehen davon, dass viele Menschen bei all diesen nur Bahnhof verstehen: Sie sind drei Titel von mittlerweile über 1000 Datensätzen in der großen Forschungsdatenbank DaRUS der Universität Stuttgart.

Die denkwürdige Marke von 1000 veröffentlichten Einträgen knackte das „Datenrepositorium der Universität Stuttgart“, so der Langname des Systems DaRUS, am 4. Februar 2022. Das interdisziplinäre Team des Forschungsdaten-Kompetenzzentrums (FoKUS) aus Universitätsbibliothek (UB) und Technischen Informations- und Kommunikationsdiensten (TIK) nimmt den Meilenstein zum Anlass, um ihren Dienst universitätsweit bekannt zu machen. DaRUS steht allen Einheiten der Universität Stuttgart und ihren Forschungspartner*innen zur Verfügung.

Daten und Metadaten bilden ein Dataversum

Technische Grundlage ist die quelloffene Software DataVerse, die an der Universität Harvard entwickelt wurde. Sie bietet die Möglichkeit, Datensätze zu speichern, untereinander und mit anderen zu teilen. Viele Schnittstellen stehen zur Verfügung, um Rohdaten hochzuladen.

Damit die Datensätze in DaRUS sortiert bleiben und nicht etwa die Geräuschmessungen aus dem All unter die Daten aus Karsthöhlen geraten, gliedert sich das Gesamt-Repositorium in einzelne „Dataversen“, sozusagen Daten-Universen oder einfach Container. Jede Einheit der Universität Stuttgart – zum Beispiel eine Abteilung, ein Institut, ein Sonderforschungsbereich oder Exzellenzcluster – erhält einen Container. 39 „Dataversen“ sind es inzwischen, in denen sich weitere Unterdataversen und Datensätze sammeln. Ein Datensatz wiederum ist eine Sammlung von Dateien, meistens Zusammenstellungen von Zahlen, die zu einem Paket zusammengefasst wurden. Mit Metadaten beschriftet kommt dieses Paket dann in den jeweiligen Container.

Veröffentlichung erst nach Qualitätsprüfung

Möchten Forschende ihren Datensatz veröffentlichen und damit auch außerhalb ihres Dataversums zugänglich machen, durchlaufen die Daten einen Prüfprozess. Optional können in Dataversen die Fachadministrator*innen oder die Principal Investigators validieren, ob die Daten so stimmen. Der SFB1313 verfolgt etwa diese Qualitätssicherung. In allen Fällen überprüft das FoKUS-Team gemeinsam mit dem Publikationsdienst-Team der UB die Datensätze hinsichtlich formaler Kriterien. Diese sind zum Teil allgemein: Etwa Titel, Kurzbeschreibungen und Schlagworte benötigen alle Datensätze. Weitere Informationen zu verwendeten Methoden, Instrumenten und Software-Tools und eine Beschreibung der Datensatzstruktur verbessern die Verständlichkeit, Reproduzierbarkeit und Nutzbarkeit der Daten. Auch rechtliche Fragestellungen bezüglich Urheber- oder Datenschutzrecht spielen für die Prüfung eine Rolle. Für die ingenieurwissenschaftlichen Fachdisziplinen erarbeiteten Vertreterinnen und Vertreter gemeinsam mit der UB eigene Metadaten-Standards im Rahmen des DIPL-ING-Projekts.

Der zweistufige Veröffentlichungsprozess in DaRUS sorgt dafür, dass sich die Daten mit ihren Metadaten sehr gut finden lassen.

Bei den ersten Veröffentlichungen in DaRUS gebe es noch mehrere Korrekturschleifen mit Vorschlägen zu den Metadaten, berichtet die FoKUS-Leiterin, Dr. Dorothea Iglezakis von der UB. Doch je mehr Erfahrung die Zuständigen hätten, desto schneller gehe es: „Meist ist bei der ersten Datenveröffentlichung noch viel zu tun, bei zweiter und dritter wissen unsere User bereits schon, worauf sie achten müssen.“

Dass die Qualitätssicherungen trotz ihrer Schleifen hilfreich sind, sehen die Forschenden selbst, wie auch Dr. Elisabeth Rüthlein vom SFB1333 betont: „Die Workflows in DaRUS beim Veröffentlichen sorgen dafür, dass unsere Daten gut überprüfbar sind und den FAIR-Kriterien entsprechen.“

Daten müssen „FAIR“ sein

Forschungsergebnisse sollen reproduzierbar und nachvollziehbar sein. Diese Grundlage wissenschaftlichen Arbeitens war auch der Grund für die Einführung eines Datenrepositoriums. Die Formel für gute Daten ist „FAIR“. Das steht für „findable, accessible, interoperable, reuseable“. Forschungsdaten sollen demnach auffindbar, langfristig zugänglich, technisch nutzbar und kombinierbar sowie für andere Analysen und Betrachtungen wiederverwertbar sein.

Als zentrale Plattform der Universität Stuttgart mit einer Speichergarantie von zehn Jahren für veröffentlichte Datensätze gewährleistet DaRUS die ersten beiden Kriterien. 300 Terabyte Speicherplatz stellt die IT bisher zur Verfügung. Die weiteren FAIR-Kriterien erfüllt das FoKUS-Team mit den Wissenschaftlerinnen und Wissenschaftlern, indem sie Metadaten setzen und beim Veröffentlichen auf Qualität prüfen.

FAIR bringt mit sich, dass es nicht ausreicht, Aktenordner mit Messreihen in der Institutsbibliothek abzustellen: „Der Druck auf die Forschenden steigt jetzt auch, mit FAIR-Data etwas zu unternehmen. Da sind viele froh über ein Angebot, das es schon gibt, und das man nicht etwas selber aufsetzen muss“, sagt Iglezakis. Damit benennt sie einen Hauptgrund, warum Forschungsgruppen sich fürs Veröffentlichen in DaRUS entschieden haben.

Frei übertragen steht das englische Akronym FAIR für auffindbar, zugänglich, nutz- und kombinierbar sowie wiederverwendbar.
Die Grundsätze von FAIR Data sollen Forschungsdaten nachhaltig nutzbar machen.

Mit DaRUS erhalten Daten ein Nachleben

Entsprechend äußert sich Prof. Bernd Flemisch vom IWS, der für das Daten- und Softwaremanagement im SFB1313 und im Exzellenzcluster SimTech mitverantwortlich ist: „Forschung zu veröffentlichen ist heutzutage mehr als die Publikation wissenschaftlicher Artikel. Daten und Software müssen integrale Bestandteile unserer Forschungsleistung sein. DaRUS ermöglicht es unserer Arbeitsgruppe und allen Stuttgarter Forschenden, Daten qualitätsgesichert in unseren wissenschaftlichen Output zu integrieren und im Rahmen der FAIR-Prinzipien anderen Forschenden und der Allgemeinheit auffindbar und nachnutzbar zur Verfügung zu stellen.“

Mittels Beschreibungen und Schlagworten sind die veröffentlichten Datensätze in DaRUS von allen Interessierten auf der DaRUS-Plattform leicht durchsuchbar und auffindbar. Fürs Wiederfinden sorgt auch bei jedem Datensatz ein Digitaler Objektbezeichner (DOI) – damit können Forschende beispielsweise die Ergebnisse von Messungen und Simulation bequem einem Peer-Review-Verfahren für Fachzeitschriften zur Verfügung stellen. Der publizierte Datensatz bleibt mit seinem DOI für die Zukunft aufrufbar.

Daten teilen und nutzen

Der Bestand an Daten und Metadaten wächst kontinuierlich weiter. Rund 500 Datensätze sind noch nicht veröffentlicht. Bei diesen prüfen oder ergänzen die über 600 Nutzenden in ihren Gruppen noch aktiv die Daten. Auch zum Teilen in Gruppen und zur eigenen Datensicherung nutzen manche das Repositorium. Etwa in den Sozialwissenschaften gibt es ein Dataversum, das für den internen Austausch genutzt wird.

Ein Augenmerk auf die gemeinsame Datenauswertung setzen unter anderem die „DataStewards“, wie in DataVerse die Administratoren heißen, Prof. Holger Steeb und Matthias Ruf aus dem Institut für Mechanik (MIB): „Wir nutzen DaRUS derzeit primär für die Publikation von großen, experimentellen Forschungsdatensätzen, um diese Forscher*innen, die nicht über entsprechende Einrichtungen und Expertise verfügen, zugänglich zu machen.“ Metadaten machten „die Datensätze transparent und nachhaltig nutzbar.“

„Aufgrund der Zitierbarkeit der geteilten Forschungsdaten kann ich die Benutzung von DaRUS allen empfehlen, die den Impact der eigenen Forschungsergebnisse erhöhen möchten“, meint Jonas Steigerwald vom ITLR, der DaRUS als Datenbeauftragter des SFB-TRR75 betreut. Fürs Veröffentlichen von Literatur oder zum Sichern von einzelnen Arbeitsschritten ist DaRUS dagegen nicht gedacht. „Dafür gibt es andere Systeme und das macht damit auch keinen Spaß“, versichert Iglezakis.

Vorteile auch für kleine Einrichtungen

Screenshot aus DaRUS: Das Gyrolog-Projekt sammelte auch Fotos der vermessenen Objekte.

Auf die derzeit 39 Dataversen verteilen sich die über 1000 Datensätze ungleichmäßig. Spitzenreiter ist das BMBF-Projekt Gyrolog, dessen Forschende über 400 verschiedene Objekte zur Kreisel- und Inertialtechnik geordnet, computertomographisch gescannt und photogrammetrisch erfasst haben. In der Förderzusage des Projekts war die Bedingung enthalten, die Rohdaten „öffentlich zugänglich zu machen“, erklärt Prof. Jörg Wagner von der Professur für Flugmesstechnik. „Dafür bildet DaRUS eine ausgezeichnete Plattform, ohne dass eine eigene Infrastruktur für Gyrolog geschaffen werden musste.“

Jedes Gyrolog-Objekt steht nun in einem Datensatz, der ganz „fair“ für Querauswertungen und weitere Verwendungen zur Verfügung steht. Wagner lobt: „Der Datenaustausch mit wissenschaftlichen Arbeitsgruppen, die an der Nachnutzung der Daten interessiert sind, hat sich sehr vereinfacht.“ Auch in der Nachhaltigkeit leiste das zentrale Repositorium gute Dienste: „Die langfristige professionelle Betreuung und Pflege dieser Daten kann meine eher kleine Professur nicht sicherstellen“, sagt Wagner. DaRUS stelle „eine sehr gute Lösung dar“.

Weitere Intensiv-Nutzer sind der SFB1333 mit rund 60, der SFB1313 mit 34 und das MIB mit 22 Datensätzen. Das MIB benutzt bereits eine Schnittstelle, vor allem, um Experimentaldaten einzuspeisen. Weitere Dataversen wie das des SFB1333, des IAG oder von SimTech bereiten ihre Systeme auf den automatischen Datentransport vor. Sind die Metadaten erst einmal im richtigen Format, sparen sich die Institute das Kopieren von Hand.

Produktiver Pilotbetrieb

Offiziell befindet sich das System, das im Oktober 2019 im Rahmen eines Drittmittelprojekts startete, im „produktiven Pilotbetrieb“. Das ist jedoch nur pro forma, praktisch funktioniert alles hervorragend und sind die Daten abgesichert: An zwei Standorte stehen Rechner und speichern Daten wie Metadaten redundant. Auch bezüglich Ausfallzeiten, etwa durch das plötzliche Hochladen ungeheurer Mengen von 13.000 Dateien, schneidet das System dank der gewissenhaften Arbeit der IT-Spezialistinnen und ‑Spezialisten, sehr gut ab. Sowas käme vielleicht alle drei Monate mal vor. Aber das Team ist schnell: „Innerhalb von 15 bis maximal 20 Minuten haben wir DaRUS neugestartet. Dann ist das System wieder da“, berichtet die FoKUS-Leiterin Dr. Dorothea Iglezakis (UB). „Nur unser Monitoring zur Ausfallsicherheit ist noch ausbaufähig.“ Dass also noch „Pilotbetrieb“ draufsteht, hat den Grund im Perfektionismus.

Aktuell ist noch ausreichend Speicherplatz für weitere Dataversen und Datensätze vorhanden. Damit DaRUS auch über die 300 Terabyte hinaus aufnahmefähig bleibt, hat die Universität Stuttgart gemeinsam mit der Universität Hohenheim im Programm „Großgeräte der Länder“ den Antrag „FairDataStorage“ beim Ministerium für Wissenschaft und Kunst (MWK) gestellt, um in Stuttgart die Speicherkapazitäten auszubauen.

DaRUS für alle

Wer als Mitglied der Universität Stuttgart selbst Daten in DaRUS hinterlegen möchte, kann sich beim FoKUS-Team anmelden. Nach Einrichtung eines Dataversums und einer kurzen Einführung steht der Dienst zur Verfügung. Schätzungsweise eine halbe bis ganze Stunde dauert das Anlegen eines Datensatzes. Beim Veröffentlichungsprozess steckt eine Person aus dem FoKUS-Team etwa dieselbe Zeit noch einmal in die Qualitätssicherung.

DaRUS

Kontakt

Kontakt

Dieses Bild zeigt Ulrich Fries

Ulrich Fries

 

Wissenschaftsmanager

 

Hochschul­kommunikation

Keplerstraße 7, 70174 Stuttgart

Zum Seitenanfang