Data Strategy
Data Governance
- Data Quality
- Data Catalog
Data Platform
Agile BI
Data Driven Company
Hitchhikers Guide to the Data Galaxy^®

Data Warehouse
Cloud DWH
Data Mesh
Data Lakehouse
Data Lake
Data Fabric
Data Vault 2.0
Virtualisierung
DWH Automation

Data Analytics

Visual Analytics
Information Design
Self-Service BI
IBCS konformes Reporting
Reporting
Dashboarding
Sports Analytics
- Sports Analytics mit AWS

Cloud Computing

Modern Cloud Data Stack
Cloud Migration
Cloud DWH
Cloud Engineering
Cloud Referenzarchitekturen
Microsoft Azure Cloud Solutions
AWS
- BI & Analytics mit AWS
Multicloud

Operations

Data Platform Operations
Data Infrastructure Op.
Managed Cloud Services
Managed Cloud Applications
Monitoring

Consulting Services

Projektmanagement
Agile Projekte
Business & Data Analysis
Training & Coaching (Agilität)

Data Platform

Data Platform
Modern Data Stack
Microsoft Azure Cloud Solutions
AWS

Data Science / KI

Ethic in AI
KI- Architektur
Generative KI
Machine Learning
Deep Learning
NLP
Predictive Analytics

Data Engineering

Data Engineering
Cloud Engineering
DevOps Engineering
Data Pipelines
Data Streams
CI/CD

Training Center

Training Center
Schulungen / Workshops
Coachings
Datavault Builder Training Center

Data Mesh

Data Mesh ist eine dezentralisierte, domainübergreifende Datenarchitektur, die auf Performance, Agilität und Self-Service setzt. areto bietet Data Mesh Lösungen mit Snowflake, Data Virtuality und Azure an.

Was ist Data Mesh?

Der Begriff Data Mesh (dt. Datengeflecht) beschreibt eine domaingesteuerte analytische Datenarchitektur, in der Daten als Produkt behandelt werden. In dieser dezentralisierten Architektur werden Daten einzelner Business Units (Domains) nicht in einer großen Plattform zusammengefügt, sondern von den zugehörigen Business Units betreut, aufbereitet und gespeichert. Ziel von Data Mesh ist es eine skalierbare Self-Service-Plattform zu erstellen, auf welcher das Datenangebot und die Datennachfrage auf einer fachlich strukturierten Ebene zusammenkommen.

Data Mesh wurde 2019 von Zhamak Dehghani bei Thoughtworks geprägt. Dieses Paradigma soll als Alternative zu herkömmlichen Datenverwaltungslösungen wie Data Warehouses und Data Lakes fungieren. Statt einer monolithischen Plattform werden die Daten dezentralisiert und das Eigentum dieser den einzelnen Business Units zugeschrieben. Diese müssen die Daten nicht in eine zentrale Plattform leiten, sondern ihre eigene Domain hosten und die Daten auf eine leicht konsumierbare Weise bereitstellen. Der physische Speicherort der Daten kann trotzdem eine zentralisierte Infrastruktur sein, nur der Inhalt und das Eigentum werden den einzelnen Units zugeordnet.

„A data mesh considers domains as a first-class concern, applies platform thinking to create self-serve data infrastructure, treats data as a product, and introduces a federated and computational model of data governance.”

Zhamak Dehghani Tweet

Die gespeicherten Daten können dann für verschiedene Bereiche dupliziert und in das Format gebracht werden, das für die jeweilige Verwendung geeignet ist. Dabei ist ein Umdenken von Nöten, weg von dem traditionellen Push- und Ingest ETL-Modell, hin zu einem Serving- und Pull-Modell für alle Unternehmensbereiche.

Der Grundgedanke ist, die Verwaltungsarchitektur und das Bestreben mit KI und Analytics einen Mehrwert aus vorhandenen Daten zu ziehen an die Komplexität von Organisationen anzupassen und skalierbar für die Zukunft zu machen.

Data Mesh Eigenschaften

Ergebnisorientiertes Denken in Datenprodukten

Ausrichtung auf Betrieb und Analyse

Erfassen von Daten in Echteit

Dezentralisierte Architektur

Datenstreams als Standardverarbeitung

Direkte Verbindung von Datenproduzenten zu Datenkonsumenten

Integrierte Sicherheit und Transparenz

Umdenken von ETL zu CTL

Warum ist Data Mesh sinnvoll?

Bei einem Data Mesh werden die Daten nicht von einem zentralen Team verwaltet, welches die Daten aus allen verschiedenen Unternehmensbereichen zusammenbringt und pflegt. Stattdessen sind alle Business Units für ihre Daten und die damit geschaffenen Datenprodukte selbst verantwortlich, da die Units am meisten mit den Datenprodukten arbeiten, diese kennen und aufbereiten können. Auch das Streamen von Live-Daten wird über Daten Pipelines sichergestellt Dadurch entstehen keine Verluste bei der Aufbereitung oder der Übertragung. Dies bietet eine qualitative Basis für datengetriebene Entscheidungen. Ein Data Mesh kann auf bereits existierenden Systemen platziert werden.

In klassischen BI Architekturen wie Data Warehouses oder Data Lakes gibt es ein zentrales Data Team, welches für die zentralisierten Daten verantwortlich ist. Durch die steigende Menge an Daten und die Versorgung von Projektteams und Data Scientists sind diese Teams oft überlastet. Darunter leidet die Geschwindigkeit der Bereitstellung und auch die Qualität der Daten. Das Problem ist meist nicht die Technik, sondern die Organisationsstruktur. Auch hier greift der Data Mesh-Ansatz ein und vermeidet, dass dieses Problem überhaupt erst entsteht.

Data Mesh Architektur

Für Data Mesh gilt der Software-Grundsatz der domain-driven Designs. Demnach soll sich die Software bzw. in diesem Fall die technische Architektur auf der Logik und Struktur des Unternehmens basieren, nicht umgekehrt. Nur so kann eine schnelle Wertschöpfung und Wiederverwendbarkeit gewährleistet werden.

Es gibt verschiedene Ansätze und Ausbaustufen von Data Mesh. Besonders großen Organisationen gefällt der Ansatz der dezentralisierten Architektur. Jedoch fürchten diese teilweise, dass es beim Zusammenführen von Daten zu Duplikaten, der Bildung von Datensilos und zu Überschneidungen von Zuständigkeitsbereichen kommen kann. Ein hybrider Ansatz und eine Teilimplementierung sind auch möglich und ähneln teilweise einer Data Lakehouse Architektur.

Jedes Unternehmen hat eine eigene Datenarchitektur und individuelle Herausforderungen, die zu berücksichtigen sind. Nicht alle Organisationen sind für eine Dezentralisierung in vollem Umfang bereit. Unsere Data Mesh Expert*innen beraten Sie gerne, welche Topologie am besten zu Ihnen passt.

4 Grundprinzipien von Data Mesh

1. Domain orientiertes Eigentum

2. Data as a Product

3. Self-Service

4. Federated Governance

1. Domain orientiertes Eigentum

2. Data as a Product

3. Self-Service

4. Federated Governance

Von klassischer Datenarchitektur zu Data Mesh

Von zentralisiertem Eigentum

Zu dezentralisiertem Eigentum

Von einem zentralisierten Datenspeicher

Zu einem Ökosystem von Datenprodukten

Von Fokus auf Datenpipelines

Zu Fokus auf Daten einzelner Business Units

Von Daten als Nebenprodukt

Zu Daten als Hauptprodukt

Von einem zentralen Datenteam

Zu Bereichdatenteams

Die Vorteile von Data Mesh in Zahlen

Klarheit über den Wert von Unternehmensdaten

47 %

betriebliche Datenverfügbarkeit durch Daten Pipelines

0 %

schnellere Innovationszyklen durch Wechsel von ETL zu CTL

0 mal

weniger Data-Engeneering Anforderungen notwendig

25 %

5 essenzielle Maßnahmen zur Einführung von Data Mesh

1. Unternehmerische Herausforderungen bewältigen

Eine Kosten- und Nutzenanalyse muss im Vorfeld von der Organisation durchgeführt werden. Data Mesh ist sinnvoll für Unternehmen mit mehreren Geschäftsbereichen, in denen die Ressourcen für einen Strukturwandel und neue Rollen vorhanden sind. Zu diesen neuen Rollen zählt auch die eines Produktmanagers in jeder Business Unit. Diese Position umfasst Aufgaben zur Datenverwaltung, Datenanalyse und klassische Aufgaben eines Produktmanagers. Aber auch der Bedarf für ein Datenteam je Business Unit, zum Aufbereiten und Teilen der Daten entsteht.

Für die Business Units sollte übergreifend ein Expertenteam für spezielle Themen und Hilfestellungen zur Verfügung stehen, welches auch die Aufgaben der einzelnen Abteilungen klar definiert. Zusätzlich sorgt ein Data Office Team als neue Organisationseinheit für die Entwicklung und die Umsetzung einer passenden Geschäftsstrategie. Es entsteht eine dezentrale, datengesteuerte Kultur.

2. Definieren von Datenprodukten

Das Grundprinzip der Datenvernetzung gilt. Jeder Bereich muss den Datenzugang mit anderen Bereichen teilen. Um Effizienz und umfangreiche Analysen zu gewährleisten, müssen die Daten vor dem Teilen aufbereitet werden. Die Dateninfrastruktur dafür muss grundlegend darauf ausgerichtet sein. Wenn Organisationseinheiten beispielsweise verschiedene Cloudplattformen nutzen, müssen dies Daten auch plattformübergreifend für andere Domains verfügbar sein.

Einige Anbieter bieten bereits eigene Austauschplattformen in der Cloud an, sodass keine Datenpipelines für das Teilen notwendig sind. Es ist möglich das Modell auf die Zusammenarbeit mit Kund*innen und Partner*innen auszuweiten. So können diese bei Bedarf auch auf die Live-Daten der Organisation zugreifen, ohne dass ETL oder Kopien in der Cloud notwendig sind.

3. Daten konsumierbar machen

Damit Daten abteilungsübergreifend geteilt und genutzt werden können, müssen einzelne Business Units die Daten aufbereiten und zugänglich machen. Auch die Metadaten sollten im Datenprodukt enthalten sein, um das Verständnis aus technischer und geschäftlicher Sicht zu gewährleisten.

Eine Möglichkeit ist auch ein Datenkatalog, der als Metadatenspeicher fungiert, in dem jede Domain ihre Datenprodukte veröffentlicht. Dort können auch Governance und Zugriffsrechte als Verwaltungsebene durch das Definieren von Gruppen und Rollen eingestellt werden. Einige Cloud Provider stellen ihren Kunden Datenkatalogdienste bereits zur Verfügung und vereinfachen somit die Integration dessen.

4. Einführung von Coordinated Governance

Datenverwaltung wird von Unternehmen häufig als oberste Priorität genannt. Traditionell ist ein zentrales Data-Warehouse-Team dafür verantwortlich. Im Data Mesh ist jeder Bereich Eigentümer seiner Daten und besitzt dementsprechend seine eigene Governance. Dafür ist Koordination zwischen den einzelnen Domains unabdingbar.

Aus diesem Grund wird ein Data Office identifiziert. Ein kleines Team, welches von einem Chief Data Officer geleitet wird. Dieses ist hauptverantwortlich für die Koordination der Datenverwaltung. Die genauen Aufgaben können von Organisation zu Organisation individuell angepasst werden. Dazu können die Entwicklung globaler Governance-Richtlinien oder auch die Qualitätskontrolle von Datenprodukten zählen.

5. Aufbau einer Self-Service Datenplattform

Ein Hauptgrundsatz von Data Mesh ist Self-Service und sollte in allen Bereichen ermöglicht werden. Dies bezieht sich auf den gesamten Lebenszyklus von Daten und Analysen. Somit können einzelne Business Units unabhängig von einem zentralen Infrastrukturteam auf alle benötigten Daten unternehmensweit zugreifen und diese verwalten. Um dies zu gewährleisten können einige Tools vom Data Office empfohlen werden.

Datenmanagementtools wie z.B. eine Cloud Plattformumgebung die Daten gemeinsam nutzbar macht
Datenkatalogtools, die das Auffinden von Daten domainübergreifend unterstützt
Datenanalysetools für Self-Service wie die Möglichkeit zur Einrichtung einer Entwicklungs- oder Testumgebung

Data Mesh Use Cases

KI und ML

Modelle für maschinelles Lernen (ML) und künstliche Intelligenz (KI) können leicht mit Daten aus verschiedenen Quellen gespeist werden, ohne dass die Daten durch einen zentralen Ort laufen

Marketing

Marketingteams sind in der Lage, die richtigen Kampagnen für die richtigen Kunden, zur richtigen Zeit und über die richtigen Kanäle durchzuführen.

Die Datenlatenz kann durch sofortigen Zugriff auf Abfragedaten aus nahe gelegenen Bereichen ohne Zugangsbeschränkungen reduziert werden.

Customer360

Stärker automatisierte Prozesse, die eine bessere und kontextbezogene Kundenerfahrung bieten. Daraus resultiert eine geringere durchschnittliche Bearbeitungszeit, eine bessere Lösung beim ersten Kontakt und eine höhere Kundenzufriedenheit

Datenschutz

Sicherheitsvorschriften lassen sich durch die Integration von externen Data Governance-, Richtlinien- und Sicherheits-Tools auf globaler Ebene leicht anwenden, bevor sie den Datenkonsumenten in den Geschäftsbereichen zur Verfügung gestellt werden.

Data Mesh mit Snowflake

Die Snowflake Plattform ist der Grundstein der Data Cloud und wurde speziell dafür entwickelt Unternehmen jeglicher Größe und Branche zu verbinden. Durch eine einheitliche Architektur wird es ermöglicht, eine Vielzahl an Daten aus verschiedensten Quellen in die Plattform zu integrieren. Snowflake ist sehr leistungsstark und lässt sich für verschiedene Workloads nutzen. Das macht sie zur derzeit am schnellsten wachsenden Datenplattform am Markt.

Eine der größten Herausforderungen des Data Mesh ist die Frage, wie Datenprodukte von seperaten Teams funktionsübergreifend erstellt und über viele Bereiche hinweg verteilt werden können. Durch die Multi-Cluster-Architektur bietet Snowflake eine einzigartige Möglichkeit zur gemeinsamen Nutzung von Daten – den Snowflake Market Place.

Hier können Dateneigentümer*innen den Datenkonsument*innen minutenschnell Zugriff auf Live-Daten gewähren, ohne dass diese in irgendeiner Weise dupliziert oder verschoben werden müssen. Das gilt auch für organisationsübergreifend wie bspw. für Kunden und Partner. Das steigert die Transparenz, die Kundenzufriedenheit und somit auch die Unternehmensleistung.

It works

Replace manual with automated to operat at scale, optimize costs, and minimize downtime.

Performance

Run any number or type of job across all users and data volumes quickly and reliably.

Collaboration

Extend access and collaboration across teams, workloads, and data seamlessly and securely.

Auch die Governance der Daten wird durch Snowflake vereinfacht. Jederzeit sind die Nutzung der Daten und auch historische Zugriffe für Sie nachvollziehbar. Zusätzlich können Sie einsehen, welche Daten unternehmensintern und -extern am häufigsten genutzt werden.

Zusätzlich ist die Unabhängigkeit der Snowflake Cloud Data Platform sehr relevant für Data Mesh Architekturen. So kann Snowflake auf AWS und Azure verwendet werden. In der Zukunft wird Snowflake auch in vielen weiteren Cloud-Regionen verfügbar sein als Lösungen anderer Cloudanbieter. Sie kann regions- und cloudübergreifend genutzt werden und verbindet Regionen und Cloudsysteme miteinander und vereinfacht somit die Einführung von Data Mesh deutlich.

Mit den Snowflake-Expert*innen von areto zur data driven company!

Vorteile mit Snowflake Data Cloud Platform

Leistungsstarke Nutzung für verschiedene Workloads

Gemeinsame Nutzung von Daten durch den Snowflake Marketplace

Keine Notwendigkeit von Duplizieren oder Verschieben für Datenzugriff

Vereinfachte Governance

Data Mesh Implementierung durch cloudübergreifende Nutzung

Die Snowflake Cloud Data Platform bietet Ihnen verbesserte Skalierbarkeit mit gleichzeitig niedrigen Betriebskosten. Sogar im Falle eines Datenverlusts lassen sich Daten wiederherstellen. Reduzieren Sie die Komplexität Ihrer Technologielandschaft mit Snowflake als zentraler Komponente. Somit können Ihre Spezialist*innen sich wieder auf die Weiterentwicklung der Daten konzentrieren und nicht auf die Wartung und Administration.

Data Mesh mit Data Virtuality

Die Data Virtuality Plattform ermöglicht verteilte Architekturen, die für das Data Mesh Konzept unerlässlich sind. Sie wurde dafür entwickelt, eine einheitliche und sichere Datenschicht über mehrere verteilte Datensysteme zu schaffen.

Datenintegrationsfunktionen ermöglichen es den Domains ihre Daten selbst zu verwalten und aufzubereiten
In der virtuellen Schicht können Datenmodelle von einzelnen Domains erstellt und gemeinsam genutzt werden
Zugriff auf Datenprodukte kann über SQL oder APIs mit erfolgen
Ein zentrales Team kann globale Governance, Qualitäts- und Sicherheitsmessungen mit der Data Virtuality Plattform durchführen
Metadatenspeicher machen Daten auffindbar
Verschiedene Tools für Governance, Richtlinien und Datenkataloge können problemlos integriert werden

Data Mesh Grundsätze mit Data Virtuality

Domain-orientiertes Eigentum

Skalierbarkeit durch dezentrales Dateneigentum

Eigenständiges einrichten von Datenbeständen und Modellen der Domains
Datenvirtualisierung mit oder ohne Datenreplikation
Nutzung verschiedener Tools in den Domains durch SQL

Data as a Product

Daten werden zu einem Produkt, wenn sie leicht verstanden und sicher genutzt werden können

Web Business Shop macht Daten auffindbar
200 Konnektoren für einfachen Zugriff auf Datenbestände
Datenbereitstellungsschicht als leistungsstarke Grundlage zur Datennutzung
Transformationsoption innerhalb der Plattform

Self Service

Geringe Komplexität durch Unterstützung von autonomer Datennutzung in der Self-Serve Plattform

Self-Service Zugang durch Data Marketplace
Datenmodellierungsschicht kann von Anwender*innen leicht gemeinsam genutzt werden
Einfache Kombination von analytischen und operativen Daten

Federated Governance

Kompatibles Ökosystem durch globale Regeln für federated Governance

Einheitliche Datenverwaltung
Sicherheits- und Datenschutzfunktionen auch auf Zeilen- und Spaltenebene
Datenerstellung innerhalb der Plattform
Einfache Integrierung von externen zentralisierten Identitäts- und Policy-Management-Plattformen

Mit den areto Data Mesh-Expert*innen zur data-driven-company!

Überholen Sie den Wettbewerb durch schnellere und bessere Entscheidungen!

Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?

kostenfreie Beratung & Demotermine

Haben Sie schon eine Strategie für Ihre zukünftige Data Mesh Lösung? Nutzen Sie bereits die Vorteile moderner Cloudplattformen und Automatisierungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kunden die agilen und skalierbaren Data Mesh Lösungen von areto bereits nutzen.

Workshops / Coachings

Sie erhalten in unseren Workshops und Coachings das nötige Know-how für den Aufbau einer modernen Data Mesh Architektur. Das areto Data Mesh-TrainingCenter bietet eine breite Auswahl an Lerninhalten.

Proof of Concepts

Welche Architektur ist für uns richtig? Sind die Rahmenbedingungen dafür geeignet? Welche Voraussetzungen müssen geschaffen werden? Proof of Concepts (POCs) beantworten diese und weitere Fragen, um dann die richtigen Investitionsentscheidungen zu treffen. So starten Sie bestens vorbereitet in Ihr Projekt.