Spark
Home » Technologien »
Schnell und unkompliziert
Bei Apache Spark ist der Funke schnell auf unser Big Data-Team übergesprungen. Die Engine ist schnell in der Ausführung – sowohl In-Memory, als auch bei Operationen auf Festplatten – und unkompliziert im Umgang. Kein Wunder, dass Spark mittlerweile weit verbreitet ist und neben Hadoop als populärstes Big Data-Framework gilt. Der chinesische Suchmaschinenhersteller Baidu setzt ebenso auf die Engine wie die NASA für ihr Deep Space Network. Wir setzen Spark beispielsweise in Big Data-Projekten mit großen Mengen an Sensordaten ein, um schnelle Auswertungen zu realisieren.
Kombinierbar mit Hadoop
Spark ist eine reine Engine, kein kompletter Stack wie Hadoop. Deshalb wird Spark häufig mit Hadoop als Basis-Infrastruktur kombiniert. Hadoop fungiert dann als System für verteilte Datenhaltung, während Spark darauf aufsetzt. Je nach Anwendungsfall lässt sich Spark aber auch ohne Hadoop einsetzen – zum Beispiel in Kombination mit NoSQL-Datenbanken wie Cassandra.
Entwickelt mit Blick auf Machine Learning
Ursprünglich wurde Spark im Jahr 2009 von Matei Zaharia entwickelt, der zu dem Zeitpunkt Doktorand an der UC Berkeley war. Der Ausgangspunkt: Limitierungen des MapReduce-Ansatzes im Kontext von Machine Learning-Algorithmen und interaktiven Anfragen. Gemeinsam mit einer wachsenden Community wurde aus Spark eine universell einsetzbare Engine, die vor allem bei fortgeschrittenen Methoden der Datenverarbeitung wie eben Machine Learning oder Stream Processing glänzt.