Durch das Internet of Things (IoT) wächst die Menge der verfügbaren Informationen in Unternehmen geradezu exponentiell an. Ein Beispiel dafür ist die moderne, vernetzte Fabrik (Smart Factory). In der digitalisierten Produktion sind Maschinen, Sensoren und smarte Produkte über das IoT miteinander gekoppelt. Dadurch entsteht neben Prozess- und Produktdaten auch eine Fülle unstrukturierter Daten zum Status einer Maschine oder Anlage. Beispielsweise Temperatur, Leistung, Umdrehungen, Feuchtigkeit oder Auslastung.
Ein Anwendungsfall: Predictive Maintenance
Diese Echtzeit-IoT-Daten lassen sich gemeinsam mit historischen Daten zu Maschinen (Wann, wo und wie oft ist dieser Fehler schon bei welchen Bedingungen eingetreten?) beispielsweise für Predictive Maintenance nutzen, sprich vorausschauende Wartung. Eine (Cloud-)Lösung oder IoT-Plattform analysiert all diese aktuellen und historischen Daten per Machine Learning. So lassen sich Abweichungen von den Normwerten erkennen – und damit Fehler oder technische Mängel vorhersagen. Der Service kann dadurch rechtzeitig reagieren und einen kostspieligen Ausfall der Maschine proaktiv verhindern.
Anhand des Maschinenzustands sind auch präzise Prognosen zu Risiken, Ausfällen und Wartungsbedarf möglich. Hier lassen sich auch Wetterdaten und sonstige Umwelteinflüsse integrieren und so etwa Entscheidungen über die Laufzeit und Konditionen bei der Verlängerung von Serviceverträgen treffen.
Voraussetzung: Leistungsfähige Big-Data-Infrastruktur
Grundlegende Voraussetzung für die effiziente Analyse der IoT-Daten ist eine leistungsfähige Big-Data-Infrastruktur, die auch große Datenmengen schnell auswertet. Das System sollte mit einer großen Vielfalt von Datentypen und Formaten zurechtkommen. Auch Daten aus unterschiedlichsten Quellen gilt es zu aggregieren und zu analysieren. Schließlich müssen Firmen etwa für die Produktionssteuerung sämtliche Datenquellen (Maschinen, Prozesse, Produkte, Wetterdaten etc.) und Systeme (ERP, CRM, BI etc.) integrieren.
Der Klassiker: Data Warehouse
Lange Zeit galt ein klassisches Data Warehouse als zentrale Quelle für die Datenanalyse. Dort führen Firmen unternehmensweit Daten aus verschiedensten Systemen zusammen und harmonisieren sie. Die gespeicherten Daten werden bereinigt, transformiert, standardisiert, integriert und angepasst, um sie meist in SQL-Tabellen zu speichern. Das heißt: Alle Daten im Data Warehouse sind strukturiert und in Datenbanken organisiert.
Die Integration der Daten in das vorab definierte Datenmodell ist allerdings sehr aufwändig. Anwender greifen dann über ihre BI-Berichte oder OLAP-Analysen auf diese Informationen zu, um die Daten auszuwerten und Entscheidungen zu treffen.
An seine Grenzen gerät ein klassisches Data Warehouse bei sehr großen und sich oft ändernden Datenmengen. Diese entstehen beispielsweise durch das IoT. Derart große Datenmengen in einem Data Warehouse zu speichern, ist wirtschaftlich oft nicht sinnvoll. Zumal die IoT-Daten nicht immer komplett benötigt werden.
Der Flexible: Data Lake
Eine weitere Herausforderung: Die Informationen aus neuen Datenquellen wie IoT-Sensoren liegen meist unstrukturiert vor. Das Gleiche gilt für Texte wie Mails oder Word-Dokumente, Bilder, Videos oder Social Media. Diese unstrukturierten oder semistrukturierten Daten müssen für das Data Warehouse transformiert werden. Dabei kann es zu Informationsverlusten kommen. Abhilfe schafft hier ein flexibler Data Lake (Datensee), der sich zudem kostengünstiger betreiben lässt als ein Data Warehouse. Da ein Data Lake auf einem verteilten Dateisystem wie etwa Hadoop basiert, lassen sich die Daten über viele unterschiedliche Storage-Lösungen verteilen. Weniger häufig angefragte Daten können dann auch auf günstigen Speichersystemen liegen.
Was bringt ein Data Lake?
Vorteile eines Data Lake
Data Lakes bieten auch wegen des Speicherns der Daten im Rohformat gegenüber Data Warehouses mehrere Vorteile:
- Die Rohdaten lassen sich einfach mit zusätzlichen Informationen aus beliebigen anderen Datenquellen anreichern, etwa mit Wetterdaten für Smart Grids, die mit Hilfe von IoT-Daten Stromerzeugung, Stromverbrauch und Stromspeicher gezielt steuern und beispielsweise Prognosen über die Strommenge von erneuerbaren Energien benötigen.
- Data Lakes arbeiten mit Kopien der Daten, die Originaldaten werden nicht verändert.
- Dadurch sind sie offen für zukünftige Entwicklungen, da sich damit auch Daten etwa von kommenden Sensoren mit geringem Aufwand für künftige, auch neuartige Analysen mit komplexen Algorithmen integrieren lassen. Das heißt: Die Datenbasis von Data Lakes lässt sich dank des Rohformats für jede mögliche künftige Form der Datenanalyse im IoT-Umfeld einsetzen. Es muss beim Speichern noch nicht klar sein, für welchen Zweck die Daten genau eingesetzt werden.
- Effiziente Verarbeitung von großen Datenmengen und auch von IoT-Datenströmen.
- Flexibilität: Da die Daten in Rohform vorliegen, werden sie erst bei Bedarf nach ihrer Relevanz für eine bestimmte Aufgabe gefiltert und zeitnah im richtigen Kontext für die geforderte Struktur aufbereitet.
Data Lake in der Cloud
Ein Data Lake in der Cloud zu betreiben bringt einige Vorteile. Wie bei allen Anwendungsfällen für Cloud Computing stehen auch hier die Faktoren flexible Skalierbarkeit und Nutzung nach Bedarf im Fokus. So kann sich eine Cloud-Lösung dynamisch an das Wachstum eines Data Lake anpassen und das Unternehmen zahlt stets nur für Speicherplatz und Rechenleistung nach konkreter Auslastung.
Warum ist das sinnvoll? Data Lakes wachsen schnell. Schon bald haben Unternehmen mehrere Terabyte bis Petabyte an strukturierten und unstrukturierten Daten, von denen nur ein Bruchteil überhaupt analysiert oder genutzt wird. Hier stoßen lokale Lösungen rasch auf Kapazitätsprobleme.
Eine spannende Option für ein Data Lake in der Cloud bietet zudem ein Multi-Cloud-Szenario. Wie oben bereits erwähnt, erlaubt ein Data Lake die Verteilung der Daten auf verschiedene Storage-Lösungen. Eine zentral gemanagte Multi-Cloud bietet genau diese Fülle an möglichen Speicherorten. So vermeiden Unternehmen nicht nur den vielzitierten Vendor Lock-in, sondern können auch ihre Cloud-Kosten noch weiter optimieren. Außerdem kann es die Verfügbarkeit und Sicherheit von Daten erhöhen, wenn diese an mehreren Orten verteilt liegen.
Data Warehouse und Data Lake ergänzen sich
Über den Autor
Erfahren Sie mehr
Blog
S3 Object Storage: Flexibel skalierbarer Cloud-Speicher
Warum plusserver
Datenhoheit
Produkte
Storage & Backup
Haben Sie noch Fragen?
Senden Sie mir einfach eine Nachricht mit Ihrem Anliegen und ich melde mich schnellstmöglich zurück.