Die Data Vault-Modellierung entwickelt sich schnell zum Standardansatz für die Modellierung eines Data Warehouses. Im Vergleich zu anderen populären Ansätzen stellt die Data Vault-Modellierung einen Paradigmenwechsel dar – eine neue Art des Denkens.

Data Vault

DATA VAULT 2.0 // DATA VAULT AUTOMATISIERUNG

Was ist Data Vault ?

Data Vault ist eine Modellierungstechnik für Data Warehouses, die insbesondere für agile Data Warehouses geeignet ist. Sie bietet eine hohe Flexibilität bei Erweiterungen, eine vollständige unitemporale Historisierung der Daten und erlaubt eine starke Parallelisierung der Datenladeprozesse.
Entwickelt wurde die Data-Vault-Modellierung in den 1990ern von Dan Linstedt. Nach ersten Veröffentlichungen im Jahr 2000 erlangte sie ab 2002 durch eine Reihe von Artikeln größere Aufmerksamkeit. 2007 gewann Linstedt die Unterstützung Bill Inmons, der sie als die „optimale Wahl“ für seine DW-2.0-Architektur bezeichnete.

areto ist Spezialist für die seit 2013 von Linstedt unter der Bezeichnung Data Vault 2.0 propagierten Paket aus Modellierungs-, Architektur- und Methodologieansätzen. Beachtenswert sind auch die Veröffentlichungen von Hans Hultgren über Data-Vault-Modellierung und von John Giles über die Erstellung von Data-Vault-Modellen mit Hilfe von Patterns.

Ausgangslage: Klassische Modellierung vs. Data Vault

klassisches Data Warehousing dimensional areto consulting screen

Etabliertes Data Warehousing mit dimensionaler Modellierung

Die dimensionale Modellierung von Kimball hat den Fokus auf einfache Datenanalysen und ist optimal für die Zugriffsschicht eines Data Warehouses.

Bill Inmon propagierte eine Enterprise- Integrationsschicht in 3. Normalform, die alle Quellsysteme in ein einheitliches, historisiertes Fachbereichsmodell transformiert. Die Modellierung in 3. Normalform ist optimiert für operative Systeme und stößt bei Datenintegration schnell an seine Grenzen.

ARCHITEKTUR UND MODELLIERUNG

  • Aufbau eines zentralen Datenmodells
  • geringer Speicherplatzverbrauch
  • optimale Unterstützung der Aggregate
  • Abbildung logischer Dimensionen anhand fachlicher Schlüssel

Agile BI leicht gemacht mit Data Vault 2.0

ARCHITEKTUR UND MODELLIERUNG

  • Optimale Unterstützung für agile Entwicklung
  • Aufwandsreduzierung in der Modellierung
  • Starke Standardisierung der Abläufe
  • Vereinfachung der Ladeprozesse 
  • Aufwandsreduzierung im Testing
  • Entkopplung von Abhängigkeiten der Liefersysteme und Verarbeitungsstrecken
  • Für ein skalierbares, flexibles und in sich konsistentes Warehouse
Agile BI mit data vault 2 0 areto consulting screen 1
Performance im Data Warehousing areto consulting screen

Warum sollten Unternehmen Data Vault nutzen?

Data Vault ermöglicht eine flexible und schnelle Anpassung des Data Warehouses. Für Unternehmen ein wirklicher Vorteil. Statische Data Warehouses werden mit der Zeit immer komplexer. Das führt automatisch zu höheren Kosten bei den kontinuierlich auftretenden Erweiterungen und Änderungen am Data Warehouse. Die umfangreichen Implementierungs- und Testzyklen führen aber nicht nur zu einer Kostensteigerung, sondern auch oft zu personellen Engpässen, Innovationsstau und zu einer aufwendigen Suche nach ETL- und Modellierungsexperten.

Unternehmen, die im heutigen Wettbwerb bestehen wollen, können sich diese Wartezeiten nicht leisten. Sie müssen schnell auf sich ständig ändernde aktuelle Marktbedürfnisse reagieren. Das muss sich auch im Data Warehouse widerspiegeln. Hier ist Data Vault die Lösung.
Moderne Data Warehouses sind agil!

Modernes modular skalierbares Data Warehousing​

Modern

Data Vault vereint das Beste aus der dimensionalen und normalisierten Modellierungswelt. Data Vault wurde speziell entwickelt wurde, um Agilität, Flexibilität und Skalierbarkeitsprobleme zu lösen. Es wurde als granulares, nichtflüchtiges, prüfbares, historisches Repository für Unternehmensdaten aus mehreren Betriebssystemen entwickelt.

Modular

Änderungen erweitern das Modell, ohne Bestehendes zu verändern. So gibt es kaum Auswirkungen auf bestehende Prozesse und nur einen minimalen Testaufwand (Regressionstests).

Skalierbar

Vollständige Parallelisierung der Beladung. Unterschiedliche Schnittstellen können unabhängig voneinander geladen werden. Inkrementelle Vorgehensweise. Inhalt ist insert only und mit SCD2-Historisierung versehen. ETL bzw. ELT kann/soll automatisiert stattfinden.​

Was sind die Vorteile von Data Vault ?

Vorteile für die Fachabteilungen

  • Schnellerer Zugriff auf neue Datenquellen
  • Reduktion der Wartezeiten für wichtige Analyseregebnisse (Time to Insight)
  • Massive Reduzierung von Entwicklungszeit bei der Implementierung von Business Anforderungen
  • Einhaltung von Compliance Anforderungen (z.B. Basel II, BCBS 239)
  • Identifikation neuer Chancen und Risiken,
  • schnellerer Return of Investment (ROI)
  • Skalierbarkeit des Data Warehouse
  • Dokumentation und Nachvollziehbarkeit aller Daten bis zum Quellsystem

Technische Vorteile

  • Near-Real-Time Beladung
  • Big Data Processing
  • Nahtlose Integration von unterschiedlichster Datenquellen (z.B. NoSQL/unstrukturierten Daten)
  • agile, iterative Entwicklungszyklen mit inkrementellen Ausbau des DWHs
  • automatisierbare ETL Patterns

Wie funktioniert der Data Vault 2.0 Architektur- und Modellierungsansatz?

Data Vault architecture areto consulting screen

Data Vault - eine ganzheitliche Lösung

Data Vault wurde nicht als reines Datenmodell entwickelt, sondern viel mehr als allumfassende Methodensammlung:

  • Vorgehensmodell
  • Datenmodellierung
  • Datenverarbeitung
  • Architektur

Mit Data Vault modellieren Sie ein additives und agiles Data Warehouse!

Methoden zur Datenmodellierung

  • Konzeptionelle Elemente der Modellierung
  • Hub & Spoke
  • Prüfbare Entwurfsregeln

Methoden zur Datenverarbeitung

  • Standardisierungsansatz für Integrationslogik
  • Realtime & Batch Unterstützung
  • ETL-Templates und Automatisierungsansätze

Architekturgrundsätze

  • Trennung von Integrations-/ Historisierungslogik und Businesslogik
  • Voraussetzungen zur Virtualisierung des BI Layers
  • Einbindung von Big Data Szenarien und NoSQL Datenbanken

Agiler Entwicklungsprozess

  • Unterstützung agiler Vorgehensweisen (SCRUM basiert)
  • Iterativer, inkrementeller Entwicklungsansatz
  • Kapselung und Entkopplung von Änderungen

Data Vault Architektur

Die Data Vault-Architektur besteht im Wesentlichen aus drei Schichten, auch „Layer“ genannt:

  • Staging Layer: sammelt die Rohdaten aus den Datenquellsystemen ein
  • Data Vault Layer:
    er enthält die
    • Raw Vault: Speicherung der Rohdaten
    • Business Vault: enthält harmonisierte und transformierte Daten auf Basis der Geschäftslogik
  • Business Intelligence Layer: Greift auf überwiegend auf die Business Vault zu und stellt Informationen für Analyse und Berichtswesen zur Verfügung
data vault 2 0 architektur areto screen
Data Vault Elemente screen

Data Vault Komponenten

Data Vault 2.0 bietet eine hohe Flexibilität bei Erweiterungen des DWH, eine vollständige Historisierung der Daten und erlaubt eine starke Parallelisierung der Datenladeprozesse. Bei der Modellierung werden alle zu einem Objekt gehörenden Informationen in drei Kategorien eingeteilt und strikt voneinander getrennt.

In die erste Kategorie „Hub“ gehören Informationen, die ein Objekt eindeutig beschreiben, d.h. seine Identität geben (z.B. Produktnummer beim Produkt).
Hub – Ist der “Stamm” einer Entität (Integrationsanker):

  • Hash-/Surrogate-Key (SK)
  • Business-Key (BK)
  • Audit-Information (Quelle, Erstellungsdatum)

Die zweite Kategorie „Link“ beschreibt Beziehungen zwischen Objekten (z.B. Zuordnung eines Produkts zu einem Vertriebskanal).
Link – Bildet die Beziehungen zwischen Hubs ab:

  • Hash-/Surrogate-Key (SK)
  • Hash-/Surrogate-Keys der verbundenen Hubs (FKs)
  • Audit-Information (Quelle, Erstellungsdatum)

Attribute, die ein Objekt beschreiben (z.B. Produktname) gehören in die dritte Kategorie, den „Satellit“.

Satellit – Speichert die Detaildaten von Hubs und Links:

  • Hash-/Surrogate-Key der Hubs oder Links
  • Detailattribute und Historie
  • Audit-Information (Quelle, Erstellungsdatum)

Durch diese Art der Modellierung sind Änderungen flexibel möglich, so dass keine bestehenden Tabellen angepasst werden müssen. Es werden einfach neue Tabellen hinzugefügt. Durch die starke Schematisierung der Datenladeprozesse können Templates verwendet werden. So ist eine Änderung bzw. Erweiterung des Datenladeprozesses meist schon durch eine Anpassung der Konfiguration möglich.

Data Warehouse Automatisierungslösungen

Im Interesse unserer Kunden sorgen wir für eine möglichst weitgehende Standardisierung der Datenintegration. Die zunehmende Verbreitung von Data Vault als Datenmodellierungsmethode für das Data Warehouse hat zur Entwicklung zahlreicher Data Warehouse Automation (DWA) Lösungen geführt. Die Kombination von führenden DWA-Tools, analytischer Datenbanken wie Exasol oder Snowflake und der technischen Expertise von areto führt zu einer hohen Zeit- und Kostenersparnis. Wir bieten hierzu marktführende Lösungen unserer Partner WhereScape, Data Vault Builder und Matillion oder auch unsere Open Source Lösung areto Data Chef, welche wir bereits bei vielen Kundenprojekten schätzen gelernt haben und erfolgreich einsetzen.

Fazit: Warum sich mit Data Vault 2.0 beschäftigen?

Der Data Vault Architektur- und Modellierungsansatz ermöglicht mit seinen einfachen und verständlichen Modellierungsparadigmen sowie Namenskonventionen ein schnelles Verständnis der Daten. Data Vault vereint das beste aus der dimensionalen und normalisierten Modellierungswelt. Dadurch ist die Modellierung skalierbar, flexibel und in sich konsistent. Sie ist an die individuellen Bedürfnisse eines Unternehmens anpassbar und bietet eine optimale Unterstützung für agile Vorgehensmodelle.

Data Vault revolutioniert durch seine neue Art der Datenintegration und Datenbereitstellung die Architektur des Data Warehouse. Durch die starke Standardisierung der Abläufe ist es möglich, die Datenbereitstellung zu einem sehr hohen Grad zu automatisieren.

Mit Data Vault schaffen Sie neue Möglichkeiten und Perspektiven Ihr Unternehmen wachsen zu lassen und in die Zukunft zu führen.

Data Vault Know-how Videothek

Strategische Entscheidungen schneller treffen - Datavault Builder - Exasol - areto

Data Vault Automatisierung mit Matillion und areto

Snowflake Cloud DWH - Datenversorgung mit Kafka und dem areto Data Chef

Mit den areto Data Vault-Experten zur data driven company!

Überholen Sie den Wettbewerb durch schnellere und bessere Entscheidungen!

Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?

kostenfreie Beratung & Demotermine

Haben Sie schon eine Strategie für Ihre zukünftige DWH-Lösung? Nutzen Sie bereits die Vorteile moderner Cloudplattformen und Automatiserungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kunden die agilen und skalierbaren DWH-Lösungen von areto bereits nutzen.

Workshops / Coachings

Sie erhalten in unseren Workshops und Coachings das nötige Know-how für den Aufbau eines modernen DWH. Das areto DWH-TrainingCenter bietet eine breite Auswahl an Lerninhalten.

Proof of Concepts

Welche DWH-Architektur ist für uns  richtig? Sind die Rahmenbedingungen dafür geeignet? Welche Voraussetzungen müssen geschaffen werden? Proof of Concepts (POCs) beantworten, diese und weitere Fragen, um dann die richtigen Investitionsentscheidungen zu treffen. So starten Sie bestens vorbereitet in Ihr Projekt.

areto Data Vault Kunden

Gern stehen wir für weitere Informationen zur Verfügung.
Wir freuen uns auf Ihren Kontakt
till sander areto

Wir freuen uns darauf mit Ihnen zu sprechen!

Till Sander
CTO
Telefon: +49 221 66 95 75-0
E-Mail: till.sander@areto.de

Demo anfordern