Data Lake

Ein Data Lake ist eine Datenarchitektur, die ein zentrales Repository für große Mengen an Rohdaten darstellt. Der Datenspeicher stellt diese Daten unternehmensweit für Analysen bereit. areto bietet Data Lakes mit Azure, AWS, Snowflake, Databricks.

Was ist ein Data Lake?

Ein Data Lake ist eine Datenarchitektur, die Unternehmen die Möglichkeit bietet, alle ihre Daten aus verschiedenen Quellen an einem Single Point of Truth zu speichern. Dies kann unabhängig von der Größe des Formats und der Verarbeitungsstufe der Daten geschehen. Data Lakes können strukturierte Daten, semi-strukturierte Daten und unstrukturierte Daten wie bspw. Audio-, Video- und Social Media-Dateien speichern. So können Sie mehr Verbindungen innerhalb Ihrer Daten schaffen und größere Erkenntnisse aus den Daten gewinnen.

Die gespeicherten Daten können direkt im Data Lake, oder mit verschiedenen Plattformarchitekturen und Analyseverfahren weiterverarbeitet werden. Ein Data Lake kann sowohl On-Premise als auch in der Cloud als Cloud Data Lake genutzt werden. Data Lakes eignen sich besonders für Unternehmen, welche Big Data sammeln und verarbeiten. Um die Daten für Analysen und zur Weiterverarbeitung vorzubereiten sind weitere Tools notwendig, welche als Layer auf dem Data Lake verwendet werden können. Data Lakes bilden meist den Storage-Layer in komplexen Datenarchitekturen wie bspw. einer Data Lakehouse Architektur oder einer Data Fabric Architektur.

Vorteile eines Data Lake

Data Lakes bieten große Speicherkapazitäten bei geringen Kosten. Durch die Verwendung eines Data Lake wird die Komplexität beim Speichern von Daten im Vergleich zu einem Data Warehouse deutlich reduziert. Außerdem wird eine flache Hierarchie der Daten gewährleistet. Die unverarbeiteten Rohdaten haben einen hohen Informationswert, da durch fehlende Aufbereitung keine wichtigen Werte verloren gehen. Eine Speicherung der Daten kann genauso wie der Speicherort unabhängig davon erfolgen, wie und ob diese Daten zu einem späteren Zeitpunkt benötigt werden. Data Lakes realisieren den Echtzeit-Import von anfallenden Datenmengen.

Der Data Lake folgt dem ELT-Modell. Durch die Speicherung findet eine einfache Demokratisierung der Daten statt, so dass Datensilos nicht entstehen können. Data Lakes machen die Daten unternehmensweit für alle Anwender*innen verfügbar, sodass die Daten für verschiede Units und Use-Cases genutzt werden können. Außerdem bieten Data Lakes eine hohe Skalierbarkeit.

Die hohe Verfügbarkeit erlaubt es Ihren Data Scientists, Developern und Data Analysts Zugriff auf die Daten mit den verschiedensten Tools und Frameworks. So können Sie Analysen durchführen, ohne Ihre Daten in ein separates System übertragen zu müssen.

Nahezu unendliche Skalierbarkeit

Kosteneffizientes Speichern

Single Point of Truth

Unternehmensweite Datenverfügbarkeit

Data Lake Architektur

Grundsätzlich bestehen Data Lakes aus drei verschiedenen Layern. Den Grundbaustein bieten die Quellen, aus welchen Daten eingespeist werden. Dazu gehören u.a. SaaS-Anwendungen, IoT-Sensoren und Business-Anwendungen. Durch ETL werden diese Daten in die Datenverarbeitungslayer geladen. Dieser ist skalierbar und besteht aus Datenspeicher, Metadatenspeicher und Replikation, um eine hohe Verfügbarkeit der Daten zu gewährleisten. Außerdem beinhaltet die effizient gestaltete Datenverarbeitungsschicht die Administration und Sicherheitsfeatures des Data Lake. Business Rules und Konfigurationen innerhalb der Schicht können durch die Administration sichergestellt werden. Nach der Verarbeitungsschicht stellt der Data Lake den Zielanwendungen die verarbeiteten Daten zur Verfügung. Dies geschieht über Konnektoren oder eine API-Schicht. Die Daten können dann für Analysen, BI-Anwendungen und Visualisierungstools genutzt werden. Dazu gehören bspw. Tableau, MS Power BI, SAP Analytics Cloud (SAC) und viele Weitere. Auch Modelle für ML und KI können mit den Daten aus dem Data Lake gefüttert werden.

areto Data Lake Referenzarchitektur

aretos Beispiel Referenzarchitektur für Ihren Data Lake mit der Nutzung von Microsoft Azure, Snowflake, Datavault Builder, Databricks und Power BI

Wir ertrinken in Daten, aber dürsten nach Informationen.

John Naisbitt (Trend- und Zukunftsforscher) Tweet

Ertrinken Sie nicht, sondern nutzen Sie Ihre Daten! Wir helfen Ihnen auf dem Weg zur data-driven-company! 

Data Lake mit areto

Snowflake

Die Data Cloud Platform von Snowflake bietet einen hybriden Ansatz, welcher die Vorteile eines Data Lake mit den Vorteilen eines Data Warehouse und Cloud-Speicher kombiniert. Snowflake fungiert als zentraler Datenspeicher für Ihr Unternehmen, welcher hohe Performance, relationale Abfragen sowie Governance und Sicherheitsfeatures bietet. Die Data Cloud Platform können Sie als Data Lake nutzen oder mit Cloud-Speicher von Amazon S3 oder Azure Data Lake kombinieren. Beschleunigen Sie auch Ihre Datentransformationen und Analysen beschleunigen und nutzen Sie die Vorteile von nahezu unendlicher Skalierbarkeit. Snowflake Data Cloud Platform wird als SaaS-Lösung angeboten und erfordert keine Hardware oder Wartungsarbeiten.

Databricks

Delta Lake von Databricks ist eine optimierte Open-Source Speicherschicht, die Zuverlässigkeit, Sicherheit und Leistung für Ihren Data Lake bietet. Sie unterstützt Streaming- und Batch-Operationen. Verhindern Sie mit Delta Lake, dass Datensilos entstehen. Speichern und integrieren Sie alle Ihre Daten an einem Single-Point-of-Truth. Delta Lake unterstützt Echtzeit-Streaming, damit Ihr Unternehmen immer mit den neuesten Daten arbeiten kann. ACID-Transaktionen und Schemaerzwingung werden unterstützt und bieten Ihnen Zuverlässigkeit und Leistung bei Beibehaltung des Kostenmodells eines Data Lake. Sie können Datenprojekte direkt auf dem Data Lake ausführen und diese unternehmensweit skalieren.

Databricks Lakehouse Platform Delta Lake areto

Delta Lake dient als Grundlage für Speicherung in der Data Lakehouse Plattform, welches Ihrer Organisation die volle Kontrolle und Flexibilität ermöglicht, neue Tools und Systeme zu integrieren.

Microsoft Azure Data Lake Storage

Microsoft Azure Data Lake Storage reduziert die Komplexität beim Speichern und Erfassen von Daten. Dieser umfasst alle Funktionen, die Ihr Unternehmen benötigt, um Daten in allen Formaten problemlos zu speichern. Somit können Ihre Entwickler*innen, Data Scientists und Analysts unternehmensweit auf Daten aller Größen und Geschwindigkeiten zugreifen. Azure Data Lake unterstützt Batch-, Streaming- und interaktive Analysen, um Ihre Daten noch schneller zu speichern. Datentransformationsprogramme in U-SQL, R, Python und .NET werden unterstützt, ohne dass Sie weitere Infrastruktur verwalten müssen. 

Sie können Ihre vorhandene Architektur und Betriebsspeicher mit dem Microsoft-Dienst verbinden und erweitern. Genauso auch Ihre IT-Lösungen zur Verwaltung und Sicherheit. Skalieren Sie Azure Data Lake an Ihre Geschäftsanforderungen und steigern Sie Ihre Produktivität durch volles Ausnutzen Ihrer Datenbestände.

AWS

Amazon Web Services bietet den Simple Storage Service (S3) als Grundlage zur Speicherung Ihrer Daten im Data Lake. Dadurch können Sie auf die AWS-Analytikservices und Frameworks zurückgreifen, die von der Datenerfassung, über Datenverschiebung und Business Intelligence bis hin zu Machine Learning Anwendungen reichen. Ihre Developer und Data Scientists können direkt mit den Daten arbeiten, ohne diese erst verschieben zu müssen. Amazon S3 bietet Ihnen hohe Verfügbarkeit, nahezu unendliche Skalierbarkeit mit wichtigen Compliance- und Sicherheitsfeatures. Der serverlose Datenintegrationsdienst AWS Glue ermöglicht es Ihnen große Datenmengen in Echtzeit oder im Batch aus den ursprünglichen Quellen zu importieren und in Ihren Data Lake zu verschieben. Außerdem bietet AWS Glue einen zentralisierten Datenkatalog zum besseren Verständnis Ihrer Daten. AWS Lake Formation ermöglicht eine vereinfachte Verwaltung Ihres Data Lake.

Lesen Sie hier mehr zu Amazon Web Services.

AWS Data Lake areto 1

AWS bietet Ihnen eine Reihe weiterer optimierter Tools wie AWS Athena zur Datenanalyse. Auch Konnektoren zu Drittanbieteranwendungen sind verfügbar, damit Sie das bestmögliche Preis-Leistungsverhältnis für Ihre Data Lake Anforderungen erhalten.

Data Lake Automatisierung

Bei der Nutzung eines Data Lake besteht das Risiko, dass dieser mit Informationsbeständen und Daten überladen wird, die für ungewisse Anwendungsfälle erfasst wurden. Dadurch steigt das Risiko eines Data Swamps, in dem Daten nicht effektiv abgefragt und genutzt werden können, obwohl die notwendigen Daten vorhanden sind. Um diesem Risiko entgegenzuwirken, können Datenpipelines, Abfragen, Datenbereitstellung und Aktualisierungen etc. automatisiert werden, um eine schnelle Wertschöpfung sicherzustellen.

Durch Best-Practice liefern die Tools hochqualitativen Code und sind durch grafische Benutzeroberflächen mit Point-und-Click einfach zu bedienen. Durch die Nutzung von Data Lake Automation Tools und der Expertise von areto können Sie die Zeit bis zur Wertschöpfung reduzieren, sodass Sie sich auf Ihre geschäftlichen Aufgaben fokussieren können bei gleichzeitiger Realisierung von Kostenvorteilen. Nutzen Sie die Tools von Wherescape, Matillion, Datavault Builder und areto Data Chef.

Mit den areto Data Lake-Expert*innen zur data-driven-company!

Überholen Sie den Wettbewerb durch schnellere und bessere Entscheidungen!

Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?

kostenfreie Beratung & Demotermine

Haben Sie schon eine Strategie für Ihre zukünftige Data Lake Lösung? Nutzen Sie bereits die Vorteile moderner Cloudplattformen und Automatisierungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kund*innen die agilen und skalierbaren Architekturlösungen von areto bereits nutzen.

Workshops / Coachings

Sie erhalten in unseren Workshops und Coachings das nötige Know-how für den Aufbau einer modernen Data Lake Architektur. Das areto Data Lake-TrainingCenter bietet eine breite Auswahl an Lerninhalten.

Proof of Concepts

Welche Architektur ist für uns  richtig? Sind die Rahmenbedingungen dafür geeignet? Welche Voraussetzungen müssen geschaffen werden? Proof of Concepts (POCs) beantworten diese und weitere Fragen, um dann die richtigen Investitionsentscheidungen zu treffen. So starten Sie bestens vorbereitet in Ihr Projekt.

Data Lake Know-how Videothek

AWS - Building a data lake on Amazon S3

Back to Basiscs: Building an Efficient Data Lake

What is Delta Lake?

Nutzen Sie Ihre Daten. Entdecken Sie Chancen. Gewinnen Sie neue Erkenntnisse.

Wir freuen uns auf Ihren Kontakt !

Till Sander CTO areto