Hier erfährst Du etwas über …
intelligentes Datenmanagement
- Data Warehouse Struktur – zeitlos, nachhaltig, hoch adaptierbar
- Data Governance – ganz einfach, ganz logisch
- DSGVO / GDPR sichere Umsetzung im Data Warehouse
außerdem:
- Wie finden wir einfach die richtigen und vollständigen Daten?
- Wie können wir schneller werden mit unseren Daten?
- Warum reden alle von “Metadaten”?
Eine gute Data Warehouse Struktur ist zeitlos, nachhaltig, hoch adaptierbar
Technik ändert sich, Systeme ändern sich, Geschäftsmodelle ändern sich. Ein gutes Data Warehouse passt sich flexibel diesen Änderungen an und erfüllt weiterhin zwei wichtige Eigenschaften:
- Historisierung – innerhalb der sich ändernden Umgebung sorgt das DWH dafür, dass die historisierten Zulieferungen nahtlos ineinander passen
- Integration – das Unternehmen ist (hoffentlich) nicht nach operativen Systemen und Datenquellen aufgebaut sondern basiert auf einem Geschäftsmodell mit Geschäftsobjekten, Transaktionen, Hierarchien und Beziehungen, die aus den diversen Quellen zusammengeführt werden.
Eine intelligentes Datenmanagement erfüllt diese Eigenschaften unabhängig der verwendeten Quellsysteme und Datenplattformen.
Achtung: Data Vault 2.0 als Methodologie für intelligentes Datenmanagement stellt Konzepte bereit, die virtualisiert oder materialisiert eingesetzt werden können, die offen sind für strukturierte (RDBMS Tabellen), semistrukturierte (XML, JSON, Avro, …) oder unstrukturierte (Texte, Fotos, Videos, …) Daten.
Ein häufig gehörtes Missverständnis ist, dass die Daten mehrfach konvertiert und gespeichert werden müssen. Da ist die Data Vault 2.0 Methodologie offen, was sie zeitlos macht.
Problemkind oder “Herausforderung” Data Governance – ganz einfach, ganz logisch
Data Governance war in der Vergangenheit häufig Problemkind, weil sich Governance Strukturen (Verantwortung für ein Datenobjekt wie „Kunde“, „Produkt“, „Auftrag“, „Produktion“) stark unterschieden von Datenstrukturen im Quellsystem sowie im Data Warehouse. Data Vault 2.0 organisiert die Daten im Data Warehouse genau so, wie Data Governance (Tools). Data Vault 2.0 ist leicht automatisierbar, es gibt mittlerweile viele gute Tools dafür. Für jeden Geldbeutel, Automatisierungsgrad und Automatisierungstiefe. Durch die Automatisierung wird die Lineage von der Quelle zum Report implizit automatisiert, die Verbindung vom Data Vault zum (konzeptionellen) Governance Modell ist fast 1:1. Fokussierst Du Dich auf diese Prinzipien, wird eine effiziente Governance leicht möglich.
So wenig Bremse wie möglich: DSGVO / GDPR sichere Umsetzung im Data Warehouse
DSGVO / GDPR ist ein Thema, das noch vielen Unternehmen schwer im Magen liegt. Scheint es auf der operativen Seite angepackt und gut bearbeitet, finden sich im Data Warehouse ganz neue Herausforderungen. Die lang laufende Historisierung, verbunden mit Schema Evolution und vielleicht vielen Daten, die nicht aus operativen Quellsystemen kommen, wollen und müssen alle berücksichtig werden. Das gilt für das Data Warehouse, wie auch den Lake, bzw. die PSA (Persistent Staging Area).
Wie finden wir einfach die richtigen und vollständigen Daten?
Du hast in Deinem Unternehmen viele Quellen von Daten. Mittlerweile auch sehr viele mit strukturierten, digitalen Daten. Dein Applikationen basieren häufig auf Datenbanken, egal ob in Deinem Rechenzentrum (“on-prem”) oder in der Cloud.
Diese Applikationen helfen Dir im geschäftlichen Alltag und unterstützen Eure Prozesse, wie z.B. Finance, Bestellwesen und Auftragsabwicklung, Zeiterfassung, Dokumentenverwaltung und vieles mehr. Der Nachteil dieser Applikationen: Sie befassen sich mit dem Hier und Jetzt, die historischen Änderungen von Daten werden typischerweise nicht gespeichert. Erst mir dieser “Historisierung” kannst Du einige wichtige Fragen beantworten, wie z.B.:
- Welche Adresse hatte der Kunde früher?
- Wieviele und welche Änderungen werden in Angeboten erst erfasst, bevor es zum Auftrag kommt?
- usw.
Für so eine Historisierung werden die Daten aus den Applikationsdatenbanken extrahiert und in einen Datenpool gebracht. Das war bis vor einigen Jahren das Data Warehouse, dann kam der Datalake hinzu.