Log-Analytics for Euclid (BA)
Ausgangslage
Bei grossen Datenverarbeitungsprojekten fallen als Nebenprodukt enorme Mengen von Loginformationen an. Die mit Severity, Zeitstempel und anderen Tags versehenen Logs geben wertvolle Hinweise über Zustand und Fortschritt der Processing-Jobs, aber auch über die Performance und die Qualität des Verarbeitungssystems. Technologien wie Elastic search Stack liefern eine gute Basis für effizienten Zugang und Suche in den Logs. Detailliertere Angaben über die Qualität der Software oder des Systems, Muster in der Verarbeitung (die sich z.B. aus dem Zusammenspiel mit dem Job-Scheduling-System ergeben) oder die Vorhersage z.B. der Laufzeit oder des Erfolgs von Verarbeitungsprozessen sind hingegen nicht direkt abrufbar. Ein enormer Gewinn aus einer vertieften Log-Analyse könnte beim ESA-Projekt Euclid gewonnen werden. Das Institut I4DS an der FHNW ist mit einer sehr zentralen Komponente am Aufbau der Datenverarbeitungsinfrastruktur beteiligt, durch welche die gesamte Datenverarbeitung kanalisiert wird. Gute, effiziente Log-Analytic ist für den robusten Betrieb essentiell.
Raumsonde Euclid, artist’s conception
Ziel der Arbeit
Ziel dieser Arbeit ist, effiziente und detaillierte Analytik für die Log-Informationen aus der Euclid-Datenverarbeitung bereitzustellen. Unter anderem soll auch End-Status und Completion Time für laufende Verarbeitungsprozesse bei gegebener, dynamischer Last auf der Processing-Infrastruktur mit Machine Learning geschätzt werden.
Problemstellung
Folgende Arbeiten sollen durchgeführt werden:
(1) Aufbau eines Elasticsearch Analyse Stacks; effiziente Integration der Logs aus den Euclid Verarbei-tungs-Prozessen.
(2) Analyse der Log-Informationen von laufenden Datenverarbeitungsjobs.
(3) Ansprechende Darstellung des aus den Logs gewonnenen gegenwärtigen System-Zustands und dessenHistorie.
(4) Identifikation und Extraktion geeigneter Merkmale aus den Log-Daten, welche für die nachfolgende Mo-dellierung verwendet werden können.
(5) Trainieren, Evaluieren und Selektieren von Machine-Learning Modellen
(a) für die Vorhersage des End-Status und der Completion Time ganzer Verarbeitungsprozesse, für die Er-stellung von Data Releases oder Projektion der erwarteten Last auf der gegebenen Infrastruktur
(b) zur Erkennung von auf Fehler oder Ineffizienzen hindeutenden Mustern in den Verarbeitungsprozessen