Data Catalog

Der Schlüssel zur unternehmensweiten Datenverwaltung, um den maximalen Wert aus Ihren Daten zu generieren.

Was ist ein Data Catalog?

In der heutigen digitalen Welt ist Datenmanagement ein wesentlicher Bestandteil jedes Unternehmens. Mit der zunehmenden Menge an Daten, die von Unternehmen generiert werden, wird die Verwaltung dieser Daten jedoch immer komplexer. Hier kommt ein Data Catalog (dt. Datenkatalog) ins Spiel – ein Werkzeug, das dabei hilft, Daten effizienter zu organisieren und unternehmensweit zu verwalten. So kann der maximale Wert aus Ihren Daten generiert werden und Sie erhalten einen Überblick über Ihre IT-Landschaft und die vorhandenen Daten.

Ein Data Catalog ist ein Metadatenverzeichnis, das als Software oder Service genutzt werden kann und es Unternehmen ermöglicht, ihre Daten zu katalogisieren und zu verwalten. Es stellt ein informatives und durchsuchbares Inventar aller Datenbestände dar. Es kann auch als zentrale Plattform gesehen werden, auf der alle Arten von Daten, einschließlich strukturierter und unstrukturierter Daten, dokumentiert und archiviert werden können. Es bietet Unternehmen eine einfache Möglichkeit, auf ihre Daten zuzugreifen, ihre Qualität zu überprüfen und ihre Wiederverwendbarkeit zu maximieren. Data Catalogs können On-Premise oder in der Cloud genutzt werden.

Data Catalog graphic areto

„A data catalog is a tool that creates and maintains an inventory of data assets through the discovery, description and organization of distributed data sets”

Ziele eines Data Catalog

Das Ziel eines Data Catalog ist es Ordnung in Unternehmensdaten zu bringen und Kollaboration innerhalb des Unternehmens zu fördern. Durch eine benutzerfreundliche Front-End-Oberfläche können auch Anwender*innen ohne spezielles Know-How auf verschiedenste Datenquellen zugreifen. Dadurch wird auch das Auffinden von Daten erleichtert und dementsprechend die Nutzung dieser Daten für Business-Intelligence (BI) Anwendungen zu Analyse– und Darstellungszwecken. Ein Datenkatalog gestaltet die Suche nach Daten wie bspw. die Suche nach einem Produkt bei Amazon. Anhand von Suchbegriffen oder Definitionen sollten Ergebnisse schnell und präzise geliefert werden und auch Empfehlungen von anderen Datenprodukten auf Basis dieser Suche generiert werden.

Ein Data Catalog maximiert den Wert von Daten und macht diese unternehmensweit verfügbar, damit die IT-Abteilung entlastet wird und Data Analysts schnell und verlässlich auf Unternehmensdaten zugreifen können. Durch die Verkürzung der time-to-results steigert ein Data Catalog die Effizienz und Produktivität Ihres Unternehmens.

Funktion eines Data Catalog

Grundsätzlich braucht ein Data Catalog Metadaten und dazugehörige Informationen aus verschiedenen unternehmensweiten Datenquellen, um diese zu katalogisieren. Als Metadaten werden Daten bezeichnet, die Informationen über einen Datenbestand liefern. Diese werden in einem Metadaten-Repository abgespeichert. Dadurch wird das Auffinden der Daten, die Auswertung und auch das Verständnis vereinfacht. Ein Beispiel für Metadaten ist ein Katalog, über den Buchbestand einer Bibliothek, auf dem Titel, Autor, Erscheinungsjahr und Standort in der Bibliothek enthalten sind. Die zugehörigen Informationen enthalten Bestandteile wie Herkunft der Daten und zugehörige Zugriffsberechtigungen, damit Sicherheits- und Complianceanforderungen eingehalten werden können.

Die Metadaten werden so organisiert, dass ein schneller und gezielter Zugriff auf die Daten im Nachhinein möglich ist. Mit einem Data Catalog können Ihre Data Analysts, Data Specialists, Developer und viele weitere Benutzer*innen profitieren, indem undokumentiertes Wissen für alle zugänglich gemacht wird. Auch können sie bekanntes unternehmensweites Wissen beisteuern, aufbereiten, verstehen und effizienter für Ihre Tätigkeitsgebiete nutzen. Sie können Ihre bevorzugten Tools zur Weiterverarbeitung nutzen und Ihre Daten dort verwenden, wo Sie es möchten, ohne den gewählten Speicherort zu verändern.

Es gibt drei Arten von Metadaten, die in einem Data Catalog hauptsächlich verwendet werden.

Technische Metadaten
Beschreiben, wie die Daten organisiert und strukturiert sind. Beispielsweise in Tabellen, Spalten und Zeilen. Sie werden auch strukturelle Metadaten genannt.
Geschäftliche Metadaten
Beschreiben den Wert der Daten für Business Zwecke wie bspw. die Einhaltung von Compliance-Vorschriften oder die Eignung für bestimmte Analysen. Sie werden auch administrative Metadaten genannt.
Prozess-Metadaten
Beschreiben die Entstehungsgegebenheiten bzw. die Historie und Herkunft. Sie zeigen, wann die Daten erstellt, verändert oder aktualisiert wurden. Sie werden auch externe Metadaten genannt.

Data Catalog Anwendungsbereiche

Ein Data Catalog kann in verschiedenen Anwendungsbereichen zum Einsatz kommen und Sie bei der Datenverwaltung unterstützen. 

In Ihrem Data Warehouse oder Cloud Data Warehouse kann ein Data Catalog als zentrales Verzeichnis für nutzbare Datenquellen dienen. Dies kann als Grundlage für weiterführende Analysen sowie Data Science und Business Intelligence (BI) Anwendungen fungieren. Zusammen mit Ihren Data Warehouse als Storage Layer kann ein Data Catalog auch als Access, Context und Collaboration Layer für einen Data Stack dienen.

Data Catalogs sind auch für Data Lakes sehr nützlich. So können die großen Mengen an Rohdaten in einem Data Lake durch bspw. Machine Learning Anwendungen in einem universellen Schema aufbereitet und in einem Data Catalog durchsuchbar dargestellt werden. Ein Data Lake kann zum Data Swamp werden, wenn ein logisch strukturierter Data Catalog fehlt und die vorhandenen Daten aufgrund ihrer Menge schlecht gefunden werden können, was sie unbrauchbar für Analysen macht.

Auch für Self-Service Analysen im Kontext von Big Data dient ein Data Catalog als Grundlage zur Strukturierung und dem Auffinden von Daten, sodass Ihre Data-Scientists entlastet werden. So können sie die richtigen Daten finden, auf sie zugreifen und interpretieren. So wird zeitintensive Zusammenarbeit zwischen Teams nicht mehr notwendig und Ihre Spezialistinnen und Spezialisten können sich voll und ganz ihren eigentlichen Aufgaben widmen.

Data Catalog Vorteile

Besseres Datenverständnis

Die Metadaten und die zugehörigen Informationen enthalten detaillierte Beschreibungen der Daten inkl. Kommentaren von Anwender*innen zum optimalen Verständnis.

Verbesserte Datenqualität

Ein Data Catalog ermöglicht es die Qualität Ihrer Daten zu überwachen und sicherzustellen, dass sie vollständig, konsistent und korrekt sind. Dies ist besonders wichtig, wenn es um geschäftskritische Daten geht, auf denen Entscheidungen basieren.

Erhöhte Effizienz

Durch die Verwendung eines Data Catalogs können Mitarbeiter*innen schnell und einfach auf die benötigten Daten zugreifen. Dies reduziert die Zeit, die für die Suche nach Daten aufgewendet werden muss, und erhöht die Produktivität.

Zentralisierung der Daten

Ein Data Catalog sammelt und organisiert alle Daten an einem Ort. Dies erleichtert den Zugriff und reduziert den Aufwand für die Suche nach den richtigen Daten.

Geringeres Risiko

Data Analysts können sich darauf verlassen, dass die Daten aktuell und zur Anwendung bestimmter Analysen geeignet sind sowie den Governancevorschriften entsprechen.

Schnelle Verfügbarkeit

Greifen Sie unternehmensweit auf Daten zu, ohne diese verschieben zu müssen. Verbindungsinformationen in dem Data Catalog reichen für den Zugriff aus.

Wiederverwendung von Daten

Ein Data Catalog hilft Unternehmen, die Wiederverwendbarkeit ihrer Daten zu maximieren. Er macht es einfacher zu sehen, welche Daten verfügbar sind und wie sie verwendet werden können.

Zugriffskontrolle

Ihre Richtlinien und Zugriffsberechtigungen können in den Data Catalog übernommen werden und gewährleisten die Einhaltung Ihrer Governancevorschriften. Weisen Sie Rollen wie Autor*in, Genehmiger*in und Verleger*in zu.

Verbesserte Kollaboration zwischen Teams

Datensilos können durch eine Single-Source-of-Trust vermieden werden und verschiedene Teams können besser zusammenarbeiten, da alle Daten einheitlich katalogisiert und zugänglich sind.

Aufbau eines Data Catalog

1. Datenaufnahme

Der Data Catalog erkennt automatisch den Inhalt, die Struktur und die Qualität der eingespeisten Daten aus den angebundenen unternehmensweiten Quellen. Gleichzeitig generiert der Data Catalog umfangreiche Metadaten, die entweder in der Speicherschicht des Catalogs oder der Quelle selbst verbleiben. Integrierte Tools vereinfachen den Datenaufnahmeprozess und reduzieren den manuellen Aufwand. Verschiedene Quelltypen wie bspw. AWS S3, Azure ADLS/WASB, Mainframe-Anwendungen und Dateiformate wie Flat Files, JSON, XML, Parquet und viele weitere werden unterstützt.

2. Datenkatalogisierung

Dies ist das Kernelement des Data Catalogs. Es besitzt die Fähigkeit, das Verzeichnis durch die Beschreibung und Identifizierung der Daten und dazugehörigen Verwaltungsaspekte anzureichern. Bei der Verwaltung bzw. der Erfassung und Kennzeichnung helfen künstliche Intelligenz (KI) und Machine Learning (ML) Anwendungen. Durch dazugehörige technische, geschäftliche und betriebliche Metadaten wird jedes Datenelement verständlich, transparent und auffindbar für Nutzer*innen bei der Suche im Data Catalog. Dabei wird der Prozess der Validierung und Qualitätssicherung genau dokumentiert.

3. Datensuche

Die Datensuche des Data Catalogs bietet vielseitige Suchfunktionen. Dazu gehören die Möglichkeiten nach Keywords, Geschäftsbegriffen und Facetten zu suchen. Die Suche ist in natürlicher Sprache für die Anwender*innen möglich. Auch kann nach weiteren Parametern wie Dateigröße, Zeit, Format und Ersteller gesucht werden. Eine ausführliche Historisierung ist auch notwendig, damit Daten durch Rückverfolgung validierbar bleiben, Fehler schnell erkannt werden und doppelte Datensätze identifiziert werden können.

4. Datenglossar

Die meisten Data Catalogs unterstützen den Aufbau eines Datenglossars bzw. eines Wörterbuchs, in dem Geschäftsbegriffe und Konzepte definiert sind. Dadurch wird ein konsistenter Data Catalog unternehmensweit gewährleistet.

5. Datennutzung

Ein weiteres Kernelement ist die Datennutzung, die für alle Anwender*innen gewährleistet wird. So können verschiedene Business Units maßgeschneiderte Datensätze anfordern und diese für Data Science, Data Analytics und weitere Tools nutzen. Durch die Integration von Workflow-Schedulern und automatisierten Ereignisprotokollen können Katalogdaten und Suchaufträge einfach in Ihre Datenschemata integriert werden. Zugriffsbeschränkungen können eingerichtet werden, damit die Einhaltung der Governanceanforderungen gewährleistet wird.

Data Catalog mit areto

Obwohl ein Data Catalog ein mächtiges Werkzeug für jedes Unternehmen sein kann, ist es wichtig das richtige Tool für die spezifischen Anforderungen Ihres Unternehmens auszuwählen. Es gibt viele Anbieter auf dem Markt, die unterschiedliche Funktionen und Preispunkte anbieten.

Wir helfen Ihnen das richtige Tool für Ihre individuellen Ansprüche zu finden. 

Microsoft Purview Data Catalog

Microsof Purview Data Catalog Preview areto

Microsoft Purview ist eine Lösung für einheitliche Governance und Verwaltung Ihrer Daten. Legen Sie für Ihre Anwender*innen eine einheitliche Data Map zur Automatisierung und Verwaltung von Metadaten aus hybriden Quellen an. Und mit Microsoft Purview Data Catalog vereinfachen Sie über eine interaktive Visualisierung der Datenherkunft das Auffinden Ihrer Daten. Sie erhalten eine einheitliche Übersicht ihrer Datenobjekte und deren Beziehungen untereinander. Datenfreigabe und Bereitstellung von Daten kann ich Echtzeit erfolgen. Microsoft Purview bietet Ihnen die Möglichkeit Aktionen zu automatisieren und konsistente Beziehungen für vertrauliche Daten in SQL Server, Azure, Microsoft 365 und Power BI zu verwenden.

Ihren geschäftlichen Nutzer*innen bietet Microsoft Purview Data Catalog den maximalen Nutzen. Genießen Sie die Vorteile einer Suchfunktion für geschäftliche und technische Suchbegriffe, um Daten problemlos aufzufinden und mit einem Unternehmensglossar Begriffe und Konzepte definieren. Ihre Datenspezialist*innen können sich so die für Analysen, BI-Anwendungen, sowie KI und ML-Projekte erforderlichen Daten.

Erfahren Sie hier mehr.

IBM Watson Knowledge Catalog

Der IBM Watson Knowledge Catalog ist die Data Catalog Lösung aus dem Hause IBM. Der Data Catalog wird als ein zentraler Service von Cloud Pak for Data angeboten und umfasst eine sichere Managementplattform für Ihren Data Catalog. Unterstützt wird der Knowledge Catalog von einem Data Governance-Framework, das zum Aufbereiten von Metadaten dient. Er sorgt dafür, dass Ihre Daten schnell zu finden sind und ermöglicht es Ihnen eine 360-Grad-Ansicht Ihrer Daten zu erstellen, unabhängig davon, wo und in welchem Format diese gespeichert sind. Der Watson Knowledge Catalog vereinfacht Data Science und Data-Compliance. Sie können durch die Definition von Datenschutzrichtlinien den Zugriff steuern, damit die ordnungsgemäße Verwendung von Daten sichergestellt wird.

Bieten Sie Ihren Mitarbeitenden einen Self-Service-Weg zu den unternehmensweiten Daten durch den Zugriff auf den Data Catalog. Binden Sie den Watson Knowledge Catalog in Ihre Datenstruktur ein und nutzen Sie Anwendungen wie Watson-Studio und Watson Machine Learning Tools um Analysen durchzuführen und Modelle zu erstellen.

Erfahren Sie hier mehr.

ibm business partner logo areto

Alation

Surface Intelligence alation data catalog areto

Der Data Catalog von Alation kann eine Vielzahl von Datenquellen wie bspw. relationale Datenbanken, Data Clouds und Data Lakes über APIs und Open Connector SDK indizieren. Die integrierte Behavioral Intelligence durch Machine Learning nutzt Mustererkennung, um Erkenntnisse darüber zu generieren, wie Daten genutzt werden. So können Beliebtheitsrankings und Nutzungsempfehlungen für Daten erstellt werden. Technische Begriffe werden in Geschäftsbegriffe umgewandelt und darauf basierend ein Geschäftsglossar erstellt. Durch die Suchfunktion in natürlicher Sprache können alle Units die Daten finden und nutzen, wodurch die funktionale Datenkompetenz Ihres gesamten Unternehmens gefördert wird. Die Entstehung von Wissenssilos wird verhindert und es werden automatisch Datenexpert*innen erkannt, sodass Fragen direkt an die richtige Person gestellt werden können.

Durch die intuitive Benutzeroberfläche des Data Catalogs entfernt Alation Barrieren für die Zusammenarbeit mit Daten und fördert die Abteilungsübergreifende Kommunikation. Compliance- und Governanceanforderungen werden durch zentrale Definitionen im Policy Center und den TrustCheck im natürlichen Arbeitsablauf sichergerstellt und eingehalten.

Erfahren Sie hier mehr.

AWS Glue Data Catalog

AWS Glue bietet Ihnen serverlose Datenintegrationsdienste, die es ermöglichen Daten aus verschiedensten Quellen zu erkennen, vorzubereiten, zu verschieben und zu integrieren. Dadurch wird Ihnen ein persistenter technischer Metadatenspeicher in der AWS-Cloud ermöglicht. AWS Glue umfasst viele verschiedene Tools, die Ihnen auch bei der Erstellung eines zentralen Data Catalogs helfen. Der AWS Glue Data Catalog ist ein Index für den Speicherort, das Schema sowie die runtime metrics Ihrer Daten.

Diese Informationen können Sie verwenden, um Ihre ETL-Pipelines visuell zu erstellen, auszuführen und zu überwachen. Die katalogisierten Daten können sofort mit Amazon Athene, Amazon EMR und Amazon Redshift Spectrum durchsucht und abgefragt werden. AWS Glue kann an Ihre Bedürfnisse angepasst und bedarfsgerecht skaliert werden. Es werden alle Datentypen und Schemavarianten unterstützt. Der Data Catalog bietet auch umfassende Prüf- und Governance-Funktionen mit Schemaänderungsverfolgung und Datenzugriffskontrollen. Gleichzeitig zahlen Sie nur was Sie tatsächlich nutzen mit dem Pay-as-you-go-Bezahlmodell.

Erfahren Sie hier mehr.

aws partner badge

Mit den areto Data Catalog-Expert*innen zur data-driven-company!

Überholen Sie den Wettbewerb durch schnellere und bessere Entscheidungen!

Finden Sie heraus, wo Ihr Unternehmen aktuell auf dem Weg zur data-driven-company steht.
Wir analysieren den Status Quo und zeigen Ihnen, welche Potenziale vorhanden sind.
Wie wollen Sie starten?

kostenfreie Beratung & Demotermine

Haben Sie schon eine Strategie für Ihre zukünftige Data Catalog Lösung? Nutzen Sie bereits die Vorteile moderner Cloudplattformen und Automatisierungen? Gern zeigen wir Ihnen Beispiele, wie unsere Kunden die agilen und skalierbaren Architekturlösungen von areto bereits nutzen.

Workshops / Coachings

Sie erhalten in unseren Workshops und Coachings das nötige Know-how für den Aufbau eines modernen Data Catalog. Das areto TrainingCenter bietet eine breite Auswahl an Lerninhalten.

Proof of Concepts

Welche Architektur ist für uns  richtig? Sind die Rahmenbedingungen dafür geeignet? Welche Voraussetzungen müssen geschaffen werden? Proof of Concepts (POCs) beantworten diese und weitere Fragen, um dann die richtigen Investitionsentscheidungen zu treffen. So starten Sie bestens vorbereitet in Ihr Projekt.

Data Catalog Know-how Videothek

Getting Started with AWS Glue Data Catalog

How to explore your data estate using the Microsoft Purview data catalog

IBM Watson Knowledge Catalog (formerly Data Catalog)

AWS Glue | How to create Glue Catalog Tables | Query your S3 Data | AWS Athena

[On-Demand Webinar] Building a Data Catalog

Making Metadata Management Engaging for Business Users

Nutzen Sie Ihre Daten. Entdecken Sie Chancen. Gewinnen Sie neue Erkenntnisse.

Wir freuen uns auf Ihren Kontakt !

Till Sander CTO areto