Heterogene Datenbestände
Die Vielfältigkeit der Daten („Variety“) gilt neben der Menge und der Verarbeitungsgeschwindigkeit („Volume“ und „Velocity“) als zentrales Merkmal von Big Data. Typischerweise treten Daten aus unterschiedlichen Quellen zusammen, die teils strukturiert und teils unstrukturiert sind. Dazu gehören beispielsweise Sensordaten und Logdaten oder aggregiertes Kundenfeedback in Form von E-Mails. Sie können historisch sein (also bereits gespeichert) oder in Echtzeit entstehen und direkt nach der Erzeugung in Analysen einfließen. Neben Daten aus dem Unternehmen selber, können auch externe Datenquellen – beispielsweise aus Open Data-Portalen – herangezogen werden.
Format-Wirrwarr bewältigen
Vor allem dann, wenn sich in einer Big Data-Lösung Daten aus vielen verschiedenen Quellen anhäufen, müssen sie in eine gemeinsame Form gebracht werden. Hier stellen sich Herausforderungen rund um den Umgang mit unterschiedlichen Ausgangsformaten. In einem Projekt haben unsere Experten beispielsweise eine Lösung zur Speicherung und Verarbeitung von 20.000 unterschiedlichen Formaten entwickelt.
Zeitabhängigkeit und rechtliche Anforderungen
Eine weitere Schwierigkeit: Daten sind zeitabhängig. Wenn eine Anwendung beispielsweise mit Geodaten operiert, muss sie auf Änderungen gefasst sein. Neue Straßen werden gebaut und Ländergrenzen verschieben sich, gleichzeitig müssen alte Fahrzeugdaten aber auch noch zu den alten Karten passen. Rechtliche Anforderungen können weitere Verarbeitungsschritte notwendig machen. Personenbezogene Daten müssen beispielsweise nach einer bestimmten Zeit gelöscht werden.