Hybride Datenhaltung

Home » Themen » Hybride Datenhaltung

Relationale Datenbanken mit Datenhaltung in Hadoop kombinieren

In vielen Anwendungsfällen ist es sinnvoll, klassische relationale Datenbanken mit NoSQL-Datenbanken und Big Data- Technologien zu kombinieren. Mit Hilfe einer zweispurigen Lösung bleibt der gesamte Datenbestand handhabbar. Ein Teil der Datenbestände wird weiterhin in einer relationalen, transaktionalen Datenbank verwaltet, während ein anderer Teil in eine verteilte Datenhaltung auf Basis von Hadoop überführt wird.

Anwendungsbeispiel: Logdaten von Websites

In transaktionalen Applikationen wie Online-Marktplätzen treten in der Regel auch unstrukturierte Daten auf. Ein typisches Beispiel sind Logdaten, die sich aus vielen Einzelkomponenten anhäufen und durchsucht werden müssen. Mit Hadoop lassen sich die mitunter sehr großen, täglich wachsenden Datenmengen auch über längere Zeiträume speichern. Kombiniert mit einer Suchplattform wie Apache Solr lassen sie sich schnell durchsuchen und aggregieren.

Anwendungsbeispiel: Data Warehouse

Ein weiteres Einsatzgebiet, in dem Big Data-Technologien derzeit Beachtung finden, ist der Data Warehouse-Sektor. Die Lizenz-, Support- und Hardwarekosten von moderner RDBMS-Software verursachen hohe Kosten. Außerdem ist die Implementierung sogenannter Cubes zur Auswertung sehr aufwändig und muss für alle neuen Aggregate durchgeführt werden. Hadoop-basierte Systeme gelten zunehmend als kostengünstigere Alternativen – sei es als teilweiser oder vollständiger Ersatz. Wir beschäftigen uns in dem Zusammenhang beispielsweise mit Open Source-Technologien wie Presto und Jasper Reports. Presto ist eine von Facebook entwickelte, verteilte SQL Query Engine. Das Besondere: Sie ermöglicht Anfragen gegen die Hadoop-basierte Datenhaltung mit Hive und Cassandra, aber eben auch gegen relationale Datenbanken und proprietäre Datenspeicher. Mit dem auf Java basierenden Jasper Reports können professionelle Reports erzeugt werden.