IRIS Big Data Browser (SA)

 

Ausgangslage

Im Rahmen des Nationalen Forschungsprogrammes ‚Big Data’ wird die FHNW eine grosse Menge Daten von der Sonnenatmosphäre analysieren und versuchen, daraus geeignete Verfahren zur Vorhersage von Sonneneruptionen und Weltraumwetter abzuleiten. Im Speziellen werden wir einen grossen Datensatz des von der NASA entwickelten Satelliten IRIS (Interface Region Imaging Spectrograph) untersuchen, welcher Messungen in Form von Bildern und Spektren von der Sonnenoberfläche sammelt. Das Datenvolumen ist in der Zwischenzeit auf über 10 TB angewachsen und am Ende der Mission wird mit einem Volumen von mehr als 30 TB gerechnet. Bei diesen Datenvolumina ist es von grosser Bedeutung, geeignete Ansichten auf den gesamten Datensatz zur Verfügung zu haben, um sich schnell einen Überblick verschaffen und interessante Teilbereiche effizient identifizieren zu können.

 

Ziel der Arbeit

Zum Sichten der grossen Datenmengen soll ein Browser-basiertes Tool gebaut werden, welches einfachen Zugang (mit Filter- und Suchfunktion) zu den Roh-Daten und den Metadaten ermöglicht. Die Roh-Daten sollen damit effizient und ohne Verzögerung in wissenschaftlich akkurater Visualisierung durchsucht und betrachtet werden können. Das Tool soll es zudem einfach ermöglichen, modular Datenvorverarbeitungsschritte in Ansicht und Suche zu integrieren.

 

Problemstellung

Der Datensatz wird auf einem Server lokal gehosted werden. Der Datensatz soll dann in einer Datenbank erfasst, mit Metainformationen versehen und einfach durchsuchbar gemacht werden. Eine einfache REST-API soll es ermöglichen die Datenbank abzufragen und Metadaten sowie Roh-Daten zur Verfügung zu stellen. Hinzukommend soll ein Browser-basiertes Tool erstellt werden, welches einfachen Zugang zu Daten und Suchfunktionalität erlaubt. Wo sinnvoll sollen Such- und Filterfunktionen durch graphische Darstellungen unterstützt werden. Schliesslich ist insbesondere auf die ansprechende und intuitive Darstellung der wissenschaftlichen Dateninhalte zu achten. Die Sichtung der grossen Mengen Bilder und Spektren soll flüssig und ohne störend langes Laden möglich sein. Dazu soll asynchrone Kommunikation zwischen Back- und Frontend eingesetzt werden.