Case
P-Data Engine: Eine Plattform für alle Daten in der Produktion.
Überblick
Im Rahmen des Projekts „P-Data Engine“ (P-DE) realisieren wir gemeinsam mit Audi ein Hybrid Data Mesh mit einem Lakehouse Ansatz. Es besteht aus mehreren Data Lakes und Data Warehouses für die Daten der Domäne Production Process und schließt begleitende Operations- und Data-Governance-Prozesse mit ein.
Zur Bereitstellung und Verwaltung der Daten verwenden wir eine Lakehouse-Architektur, die die Vorteile von Data Lakes und Data Warehouses vereint. Mit ihr kann man sowohl auf rohe, teilstrukturierte Daten als auch auf hochwertige, strukturierte Daten für Analysen zugreifen.
Ein Datenmodell, das heterogene Quellsysteme integriert, bildet die Grundlage für Reporting und Dashboard Use-Cases in Near-Realtime. Es ermöglicht Entscheidungen, die konsistent auf Daten aus dem Shopfloor basieren.
Einsatzbereich
Mit der P-DE befähigen wir analytische Use Case auf konsolidierte und transformierte Daten zuzugreifen – sowohl auf Einzelanlagenebene als auch über Fertigungen, Werke und Marken hinweg. Hierbei reichen die Analysen von einfachen Vergleichen bis hin zu komplexen KI-Algorithmen, die wiederum in den Fertigungsprozess eingreifen.
In der P-DE kann man außerdem jederzeit mithilfe standardisierter Tools auf die Daten zugreifen und einen Überblick über aktuelle und vergangene Produktionsdaten erhalten.
Von dezentralen Insellösungen zur zentralen Datenplattform.
Die heutige Reporting- & Analyticslandschaft in der Produktion ist eine historisch gewachsene Struktur verschiedenster Systeme und Technologien. Die aktuelle Systemlandschaft im Kontext Reporting und Analytics ist bisher nicht skaliert. Für den schnellen Einsatz von KI und Advanced Analytics fehlt die technologische Basis und Datengrundlage.
Um die Shopfloor-Prozesse weiter zu digitalisieren, um datenbasiert entscheiden zu können und um Analytics Use Cases und KI Use Cases zu ermöglichen, brauchen wir konsolidierte Daten als Enabler.
Wir müssen Produktionsdaten unter Berücksichtigung von Data-Governance-Aspekten zentral über die P-DE verfügbar machen, ihre Qualität prüfen und identifizierte Datenqualitätsprobleme an die Datenquellen zurückspielen.
Entscheidend ist auch hochfrequente und taktbezogene Daten zu berücksichtigen, um „Near-Realtime“ Use-Cases zu ermöglichen. Außerdem wichtig: der werks- und markenübergreifende Ansatz der Plattform.
Insgesamt soll das Projekt die dezentralisierten und schwer zugänglichen Produktionsdaten bei Audi konsolidieren, katalogisieren und zugänglich machen und Data-Governance-Prozesse etablieren.
Mit der Amazon Web Services Cloud zum Ziel.
Das Projekt setzen wir innerhalb der Digital Production Platform (DPP) um, einer Kooperation zwischen Volkswagen und Amazon Web Services (AWS). Diese Partnerschaft nutzt einen standardisierten und optimierten Integrations-Service, um eine Cloud-Infrastruktur für die Produktion und deren spezifischen Anforderungen zu bauen.
Die Architektur des Projekts ist eventbasiert und nutzt unter anderem AWS Lambda für serverlose Datenverarbeitung. Dies macht eine effiziente Ressourcennutzung und hohe Skalierbarkeit innerhalb der DPP möglich.
Die gesamte Infrastruktur verwalten wir als Code im AWS-eigenen Framework „Cloud Development Kit“ (CDK). Dies fördert Automatisierung und Wiederverwendbarkeit der Infrastruktur.
AWS S3 Buckets speichern die rohen, un- oder teilstrukturierten Daten in den Data Lakes. Der AWS Service “Redshift“ bildet die technische Grundlage für die Data Warehouses (DWHs). Die Open-Source-Software "data build tool" (dbt) erzeugt und belädt die Zielstrukturen . Die Data Lakes dienen dabei als Quelle für die DWHs. Sie ermöglichen eine standardisierte Beladung der Zielstrukturen. Zunächst wird als Werkzeug zur Report-Erstellung PowerBI genutzt. Generell erlaubt die Architektur jedoch die direkte Verbindung mehrerer Analytics-Frontend Lösungen mit den DWHs. Sie bietet dem Fachbereich so die benötigte Flexibilität.
Die P-Data Engine integriert sich nahtlos in die DPP Architektur und damit sind Daten-Zugriffe und Compliance-Anforderungen konzernweit konsistent. Auf diese Weise sind Datenqualität, Zugriffsrechte und Compliance-Anforderungen konzernweit konsistent.
Der Benefit: Daten – integriert, modelliert, skaliert, verfügbar.
Die erarbeitete Lösung ist das technische Fundament für datenbasierte Entscheidungen. Sie reduziert gleichzeitig die Kosten und das Time-to-Market für darauf basierende Datenprodukte, wie Realtime Reporting, Dashboards und Machine Learning Use-Cases. Darüber hinaus ermöglicht sie übergreifende Analysen und die Entwicklung von Produkten, die über Werke hinweg geteilt werden können. Dies trägt zur Reduzierung der Systemlandschaft bei und schafft eine große Datengrundlage für Künstliche Intelligenz.
Ein robustes Datenqualitätsmanagement sorgt für qualitätsgesicherte Daten, die als Grundlage für alle weiteren Anwendungen und Analysen dienen. Die Daten kann man jetzt je nach Use-Case spezifisch modellieren und damit flexibel und zielgerichtet nutzen.
Anlieferungsfrequenz und Qualität der angeschlossenen Datenquellen werden kontinuierlich überwacht, um eine hohe Datenintegrität sicherzustellen. Gleichzeitig lassen sich Fehler bei festgestellten Problemen über Feedback-Schleifen direkt am datenliefernden Quellsystem beheben.
Alle bereitgestellten Daten sind katalogisiert und mit einer verständlichen Beschreibung sowie ihrer Herkunft (Lineage) versehen. So sind sie leicht aufzufinden und transparent. Der Daten-Zugriff und die damit verbundenen Data-Governance-Prozesse werden standardisiert, was die Datennutzung vereinfacht und sicherer macht.
Wir tragen durch unsere Expertise in der Datenintegration, -modellierung und -governance maßgeblich zum Erfolg des Projekts bei. Die von uns implementierten Prozesse und Technologien sind entscheidend für die Skalierbarkeit und Nachhaltigkeit der Plattform.
Data Lakes, Data Warehouses, Lakehouse-Ansatz und Data Governance
Der Data Lake ist eine Speicherlösung für Daten aller Art und Größe: strukturierte, semi-strukturierte und unstrukturierte Daten im Petabyte-Bereich.
Das Data Warehouse dient als relationaler Speicher für ausgewählte strukturierte Daten, die für Auswertungen und Analysen gezielt in relationaler Form bereitgestellt werden.
Der Lakehouse-Ansatz ist ein offenes Konzept, das die Analyse von strukturierten, semi-strukturierten und unstrukturierten Daten über verschiedene Zugriffsarten ermöglicht. Dadurch vereint er die Vorteile von Data Warehouses und Data Lakes.
Data Governance legt Richtlinien, Verfahren und Standards fest, damit Daten innerhalb einer Organisation genau, konsistent und verantwortungsvoll genutzt werden. Korrekte Data Governance garantiert, dass Daten für diejenigen, die sie benötigen, zuverlässig und zugänglich sind. Gleichzeitig verhindert sie Missbrauch und gewährleistet die Einhaltung relevanter Vorschriften.
„Der größte Reiz des Projektes liegt für mich im werks- und markenübergreifenden Ansatz, der eine starke Vernetzung innerhalb des VW-Konzerns und über die Markengrenzen hinweg ermöglicht. Die Lösungen so generisch aufzubauen, um sie möglichst vielen Marken und deren Werken bereitzustellen, ist organisatorisch wie technisch eine große Herausforderung. Letztendlich aber auch eine großartige Gelegenheit, die Synergiepotentiale des Konzerns vollumfänglich zu nutzen.“
„Mit der P-Data Engine als prozess-, gewerks-, werks- und markenübergreifender Plattform für Reporting & Analytics scheinen wir den Nerv der Zeit getroffen zu haben. Das Interesse zur Nutzung der Plattform ist groß! Dies bestärkt uns einerseits, den richtigen Weg eingeschlagen zu haben, andererseits bringt das auch Herausforderungen hinsichtlich schneller organisatorischer und technischer Skalierung mit sich. Mit XL2 haben wir den perfekten Partner gefunden, diese Herausforderungen anzugehen. Das XL2-Team begleitet das Projekt seit der frühen Konzeptphase und bringt hohe Expertise und Ressourcen ein. Gemeinsam entwickeln wir die Plattform entlang der Kundenanforderungen und wichtigsten Use-Cases entscheidend weiter.“