Data Platform

Eine Data Platform ist die technologische Basis eines modernen Data Stack und stellt die Funktionen zur Erfassung, Speicherung, Aufbereitung und Analyse der Daten bereit.

Was ist eine "Modern Data Platform"?

Eine moderne Datenplattform ist so konzipiert, dass sie demokratisch, proaktiv, skalierbar und flexibel ist, um auf zukünftige Technologien und die sich entwickelnden Anforderungen moderner Datenteams zu reagieren. Sie ist die technologische Basis eines modernen Data Stack.  areto plant und baut cloudbasierte Software-Architekturen (areto Referenzarchitekturen), welche verschiedene Anwendungen zu einem Software- oder Solution-Stack zusammenzustellen. Dieser Modern Data Stack ist ein schichtweise aufgebautes System von automatisierten Services, die Daten sammeln, zusammenführen, modellieren, analysieren und schließlich den Entscheider*innen individuell aufgearbeitet präsentieren.  Eine moderne cloudbasierte Datenplattform ist das Fundament einer data-driven-company.

„Wir schaffen eine Kommunikationsplattform, auf dessen Basis Entscheidungen durch Daten unterstützt werden.”

Florian Grell, Teamlead areto Microsoft Competence Center Tweet

Wie baut man eine moderne Data Platform ?

Eine der häufigsten Fragen, die wir von Kunden erhalten, lautet: „Wie baue ich meine Datenplattform auf?“

Für die meisten Unternehmen ist der Aufbau einer Datenplattform nicht mehr ein „nice-to-have“, sondern ein „need-to-have“, denn viele Unternehmen unterscheiden sich von ihren Mitbewerbern durch ihre Fähigkeit, aus ihren Daten verwertbare Erkenntnisse zu gewinnen.

Dennoch ist es leichter gesagt als getan, das Budget, die Ressourcen und die Zeitvorgaben zu rechtfertigen, die für den Aufbau einer Datenplattform von Grund auf erforderlich sind. Jedes Unternehmen befindet sich in einem anderen Stadium seiner „Digital Journey“, was es schwieriger macht, Prioritäten zu setzen, in welche Teile der Data Platform zuerst investiert werden soll.

So sollten Sie vor dem Aufbau einer Data Platform:

1) Erwartungen festlegen, was die Data Platform leisten soll und was nicht, und

2) sowohl den langfristigen als auch den kurzfristigen ROI der Data Platform planen.

Um das Vorgehen beim Aufbau einer Data Platfom ein wenig zu vereinfachen, haben wir die 6 unverzichtbaren Schichten einer Data Platform skizziert.

Data Ingestion

Daten können erst verarbeitet, gespeichert, umgewandelt und angewendet werden, wenn sie zuvor eingelesen wurden. Da die Dateninfrastrukturen immer komplexer werden, stehen die Datenteams vor der schwierigen Aufgabe, strukturierte und unstrukturierte Daten aus einer Vielzahl von Quellen aufzunehmen. (ETL/ELT)

Data Processing

Wir designen und implementieren robuste Prozesse, um datengetriebene Entscheidungen wiederholbar, automatisierbar, zuverlässig und somit managebar zu machen..

Data Analytics & Visualization

Mit Data Analytics & Data Science Lösungen entdecken Sie die Möglichkeiten, die sich in Ihren Daten verstecken. areto hilft Ihnen, aus vorhandenen Daten Informationen zu generieren. Wissen für erfolgreiche Entscheidungen.

Data Storage

Cloud-native Data Warehouses, Data Lakes und sogar Data Lakehouses sind optimale Storage-Lösungen und bieten im Vergleich zu vielen On-Premise-Lösungen leichter zugängliche und erschwingliche Optionen für die Datenspeicherung.

Transformation, Modelling & Train

Datentransformation und Datenmodellierung zur Bereinigung der Rohdaten mittels Business-Logik sowie zur Vorbereitung für Analysen, Berichte, Visualisierungen.

Security, Governance

Die Abfrage, Speicherung, Verarbeitung und Präsentation der Daten erfolgt bei einer Data Platform mit einer Vielzahl von Tools und Technologien. Deshalb ist die Berücksichtigung von Security und Governance und Operation unabdingbar.

Data Platform - Data Ingestion / Data Integration

Daten können erst verarbeitet, gespeichert, umgewandelt und angewendet werden, wenn sie zuvor eingelesen wurden. Da die Dateninfrastrukturen immer komplexer werden, stehen die Datenteams vor der schwierigen Aufgabe, strukturierte und unstrukturierte Daten aus einer Vielzahl von Quellen aufzunehmen. Dies wird oft als Extraktions- und Ladestufe von Extract Transform Load (ETL) und Extract Load Transform (ELT) bezeichnet.

Einige beliebte Tools und Services, die auch wir in unseren Referenzarchitekturen verwenden sind:

  • Matillion – Matillion bietet mit den Produkten Matillion Data Loader & Matillion ETL leistungsstarke Lösungen zur Datentransformation und -integration in Cloud Data Warehouses.
  • Azure Data Factory: Azure Datenintegrationsdienst und Orchestrator. Bietet die vollständige Integration in eine Azure basierte Data Platform und vielfältige Konnektoren zur Datenanbindung. Zentrale Jobsteuerung aller Prozesse.
  • Apache Kafka – Eine Open-Source-Event-Streaming-Plattform für Streaming-Analysen und Dateneingabe.
    Trotz der zahlreichen Ingestion-Tools, die heute auf dem Markt verfügbar sind, entscheiden sich einige Datenteams für die Erstellung von benutzerdefiniertem Code, um Daten aus internen und externen Quellen aufzunehmen, und viele Unternehmen entwickeln sogar ihre eigenen benutzerdefinierten Frameworks, um diese Aufgabe zu bewältigen.

Data Platform - Data Storage & Processing

Nachdem Sie Ihre Ingestion-Schicht für Ihre Data Platform aufgebaut haben, benötigen Sie einen Ort, an dem Sie Ihre Daten speichern und verarbeiten können. Da aktuell viele Unternehmen ihre Datenlandschaft in die Cloud verlagern, haben Cloud-native Data Warehouses, Data Lakes und Data Lakehouses den Markt erobert und bieten im Vergleich zu vielen On-Premise-Lösungen leichter zugängliche und erschwingliche Optionen für die Datenspeicherung.

Ob Sie sich für ein Data Warehouse, einen Data Lake oder eine Kombination aus beidem entscheiden, hängt ganz von den Anforderungen Ihres Unternehmens ab. In letzter Zeit wurde viel darüber diskutiert, ob man sich beim Aufbau eines modern Data Stacks für Open-Source- oder Closed-Source-Lösungen entscheiden sollte.

Aber egal für welche Vorgehensweise Ihr Unternehmen sich entscheidet: Um eine skalierbare, flexible Data Platform aufzubauen, sollten Sie in Cloud-Speicher und Rechenleistung investieren.

Hier einige der führenden Lösungsanbieter: 

  • Snowflake – Snowflake, das erste native Cloud Data Warehouse, bietet eine ganze Reihe von Vorteilen für Datenteams hinsichtlich Kosten, Elastizität, Skalierbarkeit, Benutzerfreundlichkeit etc.
  • Amazon Redshift – Amazon Redshift, eine der am weitesten verbreiteten Optionen, basiert auf Amazon Web Services (AWS) und lässt sich problemlos mit anderen Datentools in diesem Bereich integrieren.
  • Microsoft Azure – Die Azure-Cloudplattform besteht aus mehr als 200 Produkten und Clouddiensten und wurde dafür konzipiert, Sie bei der Entwicklung neuer Lösungen zu unterstützen.
  • Amazon S3 – Ein Objektspeicherdienst für strukturierte und unstrukturierte Daten. S3 bietet Ihnen die Rechenressourcen, um einen Data Lake von Grund auf aufzubauen.
  • Databricks – Databricks, die Apache Spark-as-a-Service-Plattform, hat Pionierarbeit beim Aufbau eines Data Lakes geleistet und bietet Benutzern die Möglichkeit, sowohl strukturierte als auch unstrukturierte Daten zu nutzen. Außerdem werden die kostengünstigen Speicherfunktionen eines Data Lakes geboten.

Data Platform - Data Transformation / Data Modelling

Die Begriffe Datentransformation und Modellierung werden oft synonym verwendet, aber es handelt sich um zwei sehr unterschiedliche Prozesse. Wenn Sie Ihre Daten umwandeln, nehmen Sie Rohdaten und bereinigen sie mit Geschäftslogik, um die Daten für die Analyse und Berichterstattung vorzubereiten. Wenn Sie Daten modellieren, erstellen Sie eine visuelle Darstellung der Daten für die Speicherung in einem Data Warehouse.

Hier finden Sie eine Liste gängiger Tools Daten transformieren und modellieren zu können:

  • dbt – Die Abkürzung steht für Data Build Tool und ist das führende Open-Source-Tool für die Umwandlung von Daten, sobald diese in Ihr Warehouse geladen wurden.
  • Azure Data Factory ist der ETL-Clouddienst von Azure für die serverlose Datenintegration und Datentransformation mit horizontaler Skalierung.
  • Datavault Builder – Im Datavault Builder können Sie Ihr konzeptionelles und logisches Datenmodell entwerfen und pflegen.
  • WhereScape – WhereScape® bietet mit WhereScape® Red und WhereScape® 3D Software für Aufbau, Erweiterung und Verwaltung von Data Warehouses, Data Marts und Big-Data-Lösungen.
  • SSIS (Sequel Server Integration Services) von Microsoft germöglicht es Ihrem Unternehmen, Daten aus einer Vielzahl von Quellen zu extrahieren und umzuwandeln. 
  • Python-Code und Apache Airflow – Für ambitionierte Data Engineers, die benutzerdefinierten Code für die Datentransformation  verwenden.

Data Platform - Data Analytics & Visualization

Einfach anzuwendende, benutzerfreundliche Data Analytics & Visualization Tools sind ein wesentliches Merkmal einer modern Data Platform. Gerade der Einsatz von Self-Service Analytics ermöglicht es Anwender*innen, Abfragen und Reports mit wenig oder gar keiner Unterstützung von IT- oder Datenspezialist*innen zu erstellen und so schnell zu fundierten Entscheidungen zu kommen.

Diese Lösungen sind die Top-Lösungen am Markt:

  • MS Power BI – Mit Power BI stellen Sie Verbindungen mit und Visualisierungen von beliebigen Daten mithilfe der einheitlichen, skalierbaren Plattform für Self-Service und Business Intelligence (BI) her.
  • Tableau ist eine leistungsfähige, sichere und flexible End-to-End-Analytics-Plattform für Ihre Daten.
  • SAP Analytics Cloud – mit SAP Analytics Cloud können Fachbereiche geschäftsrelevante Vorgänge simulieren, planen und auswerten.
  • Cognos Analytics – Für Unternehmen, die hohe Skalierbarkeit und umfassende Analysefunktionalität für ihre Geschäftsanforderungen brauchen, vor Ort oder in der Cloud, ist IBM Cognos® Analytics die ideale Lösung.
  • Pyramid Analytics ermöglicht die datengestützte Entscheidungsfindung für alle Mitarbeiter im Unternehmen.
  • Thoughtspot – Durchsuchen Sie Ihr Cloud Data Warehouse auf eine ganz neue Art und Weise. Bieten Sie allen Mitarbeiter*innen eine von Google vertraute Sucherfahrung, für sofortige Analysen und Erkenntnisse aus Ihren Cloud-Daten.

Data Platform - Data Governance & Data Security

Beim Aufbau einer Data Platform ist es wichtig, sehr genau auf die Verfügbarkeit, Nutzbarkeit, Integrität und Sicherheit der Daten im gesamten Data Stack zu schauen. Eine effektive Data Governance stellt sicher, dass die Daten konsistent sowie vertrauenswürdig sind und nicht missbraucht werden. Dies wird durch  Datenschutzbestimmungen und -richtlinien immer wichtiger.

Hier finden Sie unsere Favoriten:

  • Microsoft Purview Governance Portal – Die Microsoft Purview-Lösungen im Governanceportal bieten einen einheitlichen Datengovernancedienst, der Ihnen dabei hilft, Ihre lokalen, Multicloud- und Software-as-a-Service-Daten (SaaS) zu verwalten.
  • Alation – Die aktive Data Governance von Alation stellt den Menschen in den Mittelpunkt, so dass die Mitarbeiter Zugang zu den Daten haben, die sie benötigen, und eine Workflow-Anleitung erhalten, wie sie diese nutzen können.

Data Platform - Data Analytics & Visualization

areto Data Platform Architekturen sind auf Langlebigkeit und Nachhaltigkeit ausgelegt, sodass sie auch noch in mehreren Jahren eine State-of-the-art-Infrastruktur darstellen.

Cloud Computing und KI können unterstützen, Ressourcen effizienter zu nutzen und den CO2-Fußabdruck durch die Verbesserung der Datenlage zu verringern.

Cloud Tools bieten konkrete Möglichkeiten der Optimierung der CO2 Emissionen z.B.Power BI oder SAP.

Eine Modern Data Platform optimiert die Ressourcennutzung durch Elastizität der Cloudtechnologien.

aretos Data Platform Referenzarchitekturen

Die areto Referenzarchitekturen für den Aufbau einer modern Data Platform basieren auf fünf Säulen: Operational Excellence, Sicherheit, Zuverlässigkeit, Leistungseffizienz, Kostenoptimierung.

Operational Excellence
optimale Gestaltung von Betrieb und Monitoring der Systeme sowie kontinuierliche Verbesserung unterstützender Prozesse und Verfahren

Security
Schutz von Informationen, Systemen, Anlagen, Risikobewertungen und Strategien zur Risikominderung

Kostenoptimierung
Maximierung des ROI durch den kontinuierlichen Prozess der Verbesserung des Systems über seinen gesamten Lebenszyklus.

Zuverlässigkeit
Gewährleistung von Sicherheit, Notfallwiederherstellung, zur Geschäftskontinuität, da Daten an mehreren redundanten Standorten gespiegelt werden.

Leistungseffizienz
effiziente Nutzung von Computerressourcen, Skalierbarkeit um kurzfristige Anforderungspeaks zu erfüllen, Zukunftsfähigkeit

Mit den areto Data Platform-Expert*innen zur data-driven-company!

Überholen Sie den Wettbewerb durch schnellere und bessere Entscheidungen!

Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?

kostenfreie Beratung & Demotermine

Haben Sie schon eine Strategie für Ihre zukünftige Data Platform Lösung? Nutzen Sie bereits die Vorteile moderner Cloudplattformen und Automatisierungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kund*innen die agilen und skalierbaren Architekturlösungen von areto bereits nutzen.

Workshops / Coachings

Sie erhalten in unseren Workshops und Coachings das nötige Know-how für den Aufbau einer modernen Data Platform Architektur. Das areto TrainingCenter bietet eine breite Auswahl an Lerninhalten.

Proof of Concepts

Welche Architektur ist für uns  richtig? Sind die Rahmenbedingungen dafür geeignet? Welche Voraussetzungen müssen geschaffen werden? Proof of Concepts (POCs) beantworten diese und weitere Fragen, um dann die richtigen Investitionsentscheidungen zu treffen. So starten Sie bestens vorbereitet in Ihr Projekt.

Wir freuen uns auf Ihren Kontakt

till sander areto

Wir freuen uns darauf mit Ihnen zu sprechen!

Till Sander
CTO
Telefon: +49 221 66 95 75-0
E-Mail: till.sander@areto.de