What awaits you in this course?
Unstrukturierte Datenmassen liefern häufig bessere Antworten als kleine, aufwändig erhobene Datenmengen: Zum Beispiel wird vermutet, dass Grippewellen heute schneller durch die Analyse von Social-Media-Posts aufgespürt werden als durch (staatlich) erhobene Daten.
Allerdings haben diese Datenmassen auch Kehrseiten: Sie sind komplex zu verarbeiten. Klassische (relationale) Datenbanken gelten als ungeeignet und unwirtschaftlich. Hierbei scheinen die Basistechnologien Hadoop, HBase, Spark oder MongoDB Abhilfe zu schaffen: Sie versprechen die Verarbeitung und Vorhaltung riesiger Datenmengen effizient und kostengünstig.
Outline
Big-Data: Was ist das?
- Big-Data als Vorgehensweise
- Big-Data definiert durch 3 Vs
Big-Data und Infrastruktur
- Besondere Wichtigkeit von Infrastruktur im Big-Data-Kontext
- Überblick über Big-Data-Technologien
Deep-Dive Technologie: Hadoop
- HDFS
- Technische Implementierung des HDFS
- Map-Reduce
- Hadoops Kernvorteil: "Programm zu den Daten" vs. "Daten zum Programm"
Deep-Dive Technologie: Spark und R on Spark
- Architektur von Spark
- R und Spark auf Hadoop
Einsatzszenarien für Big-Data-Technologien
- Typische Datenquellen für Big-Data
- Vor- und Nachteile von Big-Data-Technologien
Abschluss/ Zertifikat