Data Lake
Wie können Unternehmen ihre kontinuierlich wachsenden Datenbestände optimal nutzen? In vielen Firmen behindern immer noch Silo-Architekturen den Datenfluss. Um diese aufzubrechen und smarte Datenanalysen zu ermöglichen, eignen sich Data Lakes.
Wir erklären, wie sich ein Data Lake von einem Data Warehouse unterscheidet, welche Anwendungsszenarien es eröffnet und welche Vor- und Nachteile Unternehmen einkalkulieren sollten.

Definition: Was ist Data Lake?
Ein Data Lake ist eine IT-Architektur zur Datenspeicherung. Viele Unternehmen verwenden den Begriff synonym zu Data Warehouse, Data Mesh oder Data Hub, obwohl sich die Konzepte deutlich unterscheiden.
Unsere Definition von Data Lake:
Ein Data Lake (auch Enterprise Data Lake oder Big Data Lake) ist ein zentraler Datenspeicher im Unternehmen, in dem strukturierte und polystrukturierte Daten abteilungs- und anwendungsübergreifend für analytische und operative Zwecke vorgehalten werden. Die Datenpools sammeln Dateikopien oder Originaldaten aus verschiedenen Speicherorten.
Vorteile und Nachteile eines Data Lakes?
Obwohl Big Data Lakes mittlerweile nicht mehr das neueste Konzept zur Datenhaltung sind, gibt es weiterhin viele Gründe, die für den Einsatz vonData Lakes sprechen. Allerdings hat die Technologie ihre Grenzen.
Vorteile
Skalierbarkeit
raditionelle Data Warehouses sind aufgrund ihrer Datenstruktur schlechter zu skalieren. Ein Data Lake wächst relativ kostengünstig mit steigendem Datenvolumen mit.
Flexible Datenschemata
In Data Lakes werden Daten in verschiedenen Schemata gespeichert. Sogar schemafreies Speichern ist möglich, zum Beispiel in einem Hadoop Data Lake. Daten können so in beliebigen Schemata abgerufen werden, was sie extrem vielseitig verwendbar macht.
Fortgeschrittene Analytics
Data Lakes speichern Daten auf eine Art und Weise, die sie für den Einsatz von Machine Learning und KI-Algorithmen prädestiniert. Diese Technologien wiederum ermöglichen es Unternehmen, schnellere und präzisere Datenanalysen vorzunehmen und bessere, datenbasierte Entscheidungen zu treffen.
Nachteile
Erschwerter Datenfluss
Die Daten im Data Lake können zwar leicht zusammengeführt werden, die Aufbereitung für verschiedene Anwendungen ist technisch jedoch relativ aufwändig. Hier sind Data Hubs und andere IT-Architekturen besser aufgestellt.
Kein integriertes Qualitätsmanagement
Im Data Lake findet keine Qualitätskontrolle der gesammelten Daten statt. Diese muss jeweils im Anwendungssystem vorgenommen werden. Eine Zentralisierung und damit Vereinfachung des Datenqualitätsmanagements wird nicht erreicht.
Data Lake vs. Data Warehouse: Was ist der Unterschied?
Die Konzepte von Data Lake und Data Warehouse sind sehr ähnlich, aber nicht deckungsgleich. Ein Enterprise Data Lake kann kein Data Warehouse ersetzen oder umgekehrt.
Die wesentliche Gemeinsamkeit: Beide Datenspeicher bewahren Daten auf, die vom Unternehmen für Analysezwecke genutzt werden sollen.
Während im Data Lake Kopien von Daten gespeichert sind, werden im Data Warehouse die Originaldaten verschiedener Anwendungen zusammengebracht.
Die Daten im Data Warehouse werden in der Regel für klar definierte Anwendungen benötigt und liegen strukturiert vor. Die Verarbeitungsprozesse sind klar fixiert. Im Data Lake dagegen werden polystrukturierte Daten gesammelt, die in Teilen (noch) keinem klaren Verwendungszweck zugeordnet sind und keinerlei Qualitätssicherung durchlaufen haben. Die Daten lassen sich gut für explorative Analysen verwenden. Die Anwendungsszenarien für diese „Rohdaten“ sind vielseitig.

Data Lake Architecture: Optimale Wertschöpfung durch Technologiemix
Data Lake vs. Data Warehouse vs. Data Hub? Vor diese Entscheidung sehen sich viele Unternehmen gestellt. Allerdings erzielen sie die beste Wertschöpfung, wenn sie verschiedene Datenspeicher-Architekturen kombinieren, da sie sich in ihrer Funktion unterscheiden.
Beispiel
Im Zug einer explorativen Analyse von Daten aus dem Enterprise Data Lake, können Data Scientists potenzielle Anwendungsmöglichkeiten evaluieren. Von jetzt an werden die Daten für eine standardisierte, skalierbare Auswertung im Data Warehouse in einem strukturierten Prozess bereitgestellt. Externe Partner, die ebenfalls Zugriff auf die Auswertungen erhalten sollen, werden über einen Data Hub angebunden.
Damit sich das Investment in einen Data Lake auszahlt, sollten Unternehmen unbedingt vorab die gesamte Wertschöpfungskette von der Datenerhebung bis zur Verwendung durchdenken. Häufig scheitern Projekte, weil die notwendigen Strukturen um den Data Lake nicht geschaffen wurden, um die Erkenntnisse aus den neu gewonnenen Daten zu operationalisieren.
Data Lake Use Cases aus der Praxis
Anders als mit vielen früheren Repository-Konzepten können Unternehmen ihre Daten mithilfe von Data Lakes deutlich umfangreicher auswerten. Es sind Data Lake Uses Cases für jede Branche und in fast in jedem Geschäftsbereich denkbar.
Beispiel Online-Marketing
Beim Webtracking auf der eigenen Website können viele Nutzerdaten erhoben werden, im Rahmen der rechtlichen Vorgaben auch über einen klaren Use Case hinaus. Diese Daten können in einem Data Lake gesammelt und verwendet werden, wenn sich ein Anwendungsszenario bietet, zum Beispiel um die User Experience zu verbessern.
Beispiel Logistik
Unternehmen können über Sensoren an ihren Lkw diverse Bewegungsdaten sammeln, zum Beispiel zum Beschleunigungsverhalten, gefahrenen Kilometern und Benzinverbrauch. Werden die Daten in einem Data Lake gespeichert, können aus dem Datenpool mithilfe eines Machine-Learning-Algorithmus Prognosen abgeleitet werden, um zum Beispiel die Abnutzung von Bauteilen vorherzusagen, die Wartungsintervalle oder das Fahrtempo zu optimieren.
Beispiel Produktentwicklung
Betreiber von Video-Streaming-Diensten sammeln Daten über das Verhalten ihrer Kunden: Welche Filme wurden wann angesehen? Welche Filme werden von den gleichen Kunden gemocht? Die Daten können zunächst ohne klare Zielsetzung gesammelt und in einer explorativen Analyse auf Ansätze für Angebotsverbesserungen oder neue Produktideen ausgewertet werden.
Data Lake: Beispiele für Technologie-Anbieter
Data Lakes lassen sich mithilfe verschiedener Technologien realisieren. Ein Hosting ist sowohl On-Premises als auch in der Cloud möglich. Die größten Technologie-Anbieter hierfür sind Apache Hadoop von IBM, Microsoft Azure und Amazons AWS. Dabei bieten sie um das reine Hosting verschiedene Zusatzservices an.
Hadoop Data Lake
Apache Hadoop von IBM ist eine Open-Source-Plattform, mit deren Hilfe Unternehmen kostengünstig Datenpools anlegen können. Durch die verteilte Verarbeitung der Daten und den Einsatz von Commodity-Computern ist die Bereitstellung sehr zuverlässig und leicht skalierbar.
Azure Data Lake
Microsoft vermarktet seine Data Lake-Cloudlösung als Teil der Cortana Intelligence Suite. Dies soll für die nahtlose Weiterverarbeitung der gespeicherten Daten in BI-Tools wie Azure Synapse Analytics, Power BI und Data Factory sorgen.
AWS Data Lake
Unternehmen, die die AWS Cloud-Lösungen nutzen, können hier auch einen hochverfügbaren Data Lake anlegen. AWS stellt eine Architektur für die AWS-Cloud bereit – mit einer benutzerfreundlichen Konsole zum Suchen und Anfordern von Datensätzen.
Fazit: Data Lakes – Ein Tool für Datenanalysen der Zukunft
Mit der steigenden Bedeutung von Datenanalysen für die Wettbewerbsfähigkeit von Unternehmen haben sich Data Lakes als Datenmanagement-Instrument etabliert. Der Betrieb der abteilungsbezogenen Data Repositories ist für Big Data nicht ausgelegt und entwickelt sich zu einem unverhältnismäßigen Kostenfaktor. Data Warehouses sind zudem unflexibel und in ihrer Anwendung begrenzt. Data Lakes sind wesentlich kostenschonender, flexibler und skalierbarer. Zudem ermöglichen sie den Einsatz von Zukunftstechnologien wie Machine Learning und KI.
Allerdings stellt sich der Mehrwert des neuen Data Repositories mit der Implementierung nicht automatisch ein. Ein Data Lake bildet im besten Fall ein Zahnrad im Uhrwerk der übergeordneten Data-Analytics-Strategie. Rechtliche Regelungen, Ziele und Anforderungen müssen berücksichtigt werden, um den Data Lake effektiv in die IT-Architektur zu integrieren. Mittlerweile gibt es außerdem neuere Ansätze zur Datenhaltung wie Data Hubs, die je nach Unternehmensanforderungen genauso gut oder besser geeignet sind, um den Datennutzung zu optimieren.
Häufige Fragen rund um Data Lake
-
Während ein Data Lake einem zentralistischen Paradigma entspringt, beschreibt Data Mesh einen dezentralen Ansatz. Es werden Analyse-Tools für Fachdomänen erstellt, Datenkonsumenten (Anwender) und Administratoren stehen in einem engen Austausch über Anforderungen und Veränderungen in Bezug auf die gespeicherten und benötigten Daten. Die einzelnen Analyse-Awendungen werden vernetzt und stehen unternehmensweit in Austausch. Davon leitet sich der Name Data Mesh ab. Anders als beim Data Warehouse geht es für Unternehmen also tatsächlich um die Entscheidung Data Mesh vs. Data Lake, zentralistischer oder dezentraler Ansatz.
-
Ein Data Lake speichert Unternehmensdaten unstrukturiert. Ein Data Hub ist kein Datenspeicher, sondern eine Technologie, die den nahtlosen Datenfluss – zum Beispiel aus einem Data Lake – an weiterverarbeitende Anwendungen und für eine lückenlose Data Governance sicherstellt.
-
Die Bereitstellung eines Data Lake On-Premises erfordert Wartung, Administration und Rechenzentrumskapazität. Die gleichen Gründe, aus denen sich Unternehmen in anderen IT-Bereichen für Cloud-Lösungen entscheiden, sprechen auch für Data Lakes in der Cloud. Die Risiken wie IT-Sicherheit und Verfügbarkeit lassen sich durch die Wahl eines verlässlichen Anbieters minimieren.
Ob eine On-Premises- oder eine Cloud-Lösung für einen Data Lake die bessere Wahl ist, kommt jedoch auf die Prioritäten und Präferenzen eines Unternehmens an und muss im Einzelfall abgewogen werden.
Bessere Datenanalysen?