Data for Breakfast Around the World

Drive impact across your organization with data and agentic intelligence.

Was ist ein Data Warehouse? Ein umfassender Leitfaden

In diesem Artikel erfahren Sie, was Data Warehouses so einzigartig macht, welche Komponenten bei der Erstellung von Data Warehouses eine Rolle spielen und wie sie Organisationen einen Wettbewerbsvorteil verschaffen.

  • Übersicht
  • Was ist ein Data Warehouse?
  • Architektur eines Data Warehouse
  • Wichtige Komponenten eines Data Warehouse
  • Arten von Data Warehouses
  • Klassische vs. Cloud Data Warehouses
  • Vorteile eines modernen Data Warehouse
  • Häufig gestellte Fragen zum Data Warehouse Management
  • Kunden, die die AI Data Cloud nutzen
  • Ressourcen zum Thema Data Warehouse

Übersicht

Daten sind für die Weltwirtschaft ebenso wichtig wie Elektrizität. Aber ebenso wie wir Kraftwerke brauchen, um Haushalte und Maschinen mit Strom zu versorgen, brauchen wir Systeme, die Daten erfassen, speichern und organisieren, bevor sie eingesetzt werden können.

Data Warehouses führen Unmengen verschiedener Datentypen zusammen – Kundenprofile, Finanztransaktionen, Produktkataloge, Geräteprotokolle, Markttrends usw. – und machen es dann leicht, diese Daten auf verschiedenste Weise aufzuschlüsseln und zu analysieren. Mit Data Warehouses können CFOs den Umsatz für das nächste Jahr prognostizieren, Personalverantwortliche den Personalbedarf einschätzen, Betriebsleitungen ihre Fertigungsanlagen optimieren und CEOs strategische Entscheidungen über die Zukunft ihres Unternehmens treffen. Sie schaffen außerdem die Grundlage für neue KI-Tools, indem sie hochwertige Informationsquellen für das Training von KI-Modellen bereitstellen.

In diesem Artikel untersuchen wir, was Data Warehouses so einzigartig macht, welche Komponenten bei der Erstellung von Data Warehouses eine Rolle spielen und wie sie Organisationen einen Wettbewerbsvorteil verschaffen.

Was ist ein Data Warehouse?

Bei einem Data Warehouse handelt es sich um ein zentrales Repository, das aktuelle und historische Daten aus verschiedenen Quellen der gesamten Organisation speichert und damit Business Intelligence (BI) und Analytics unterstützt. Data Warehouses schaffen eine Single Source of Truth für Geschäftsdaten und eliminieren so Unstimmigkeiten und Duplikate, die entstehen, wenn verschiedene Abteilungen ihre eigenen Daten-Repositorys nutzen.

Im Gegensatz zu operativen Datenbanken, die für die Abwicklung alltäglicher Transaktionen ausgelegt sind, sind Data Warehouses für komplexe Abfragen, Berichte und Datenanalytik optimiert, um die strategische Entscheidungsfindung zu unterstützen. Während eine operative oder relationale Datenbank nahezu in Echtzeit Informationen darüber enthalten kann, wie die verschiedenen Segmente des Unternehmens abschneiden, bieten Data Warehouses eine eher historisch ausgerichtete Perspektive auf die gesamte Organisation. Dadurch nutzen sie unterschiedliche Organisationsstrukturen und Methoden zur Abwicklung von Transaktionen.

Data Warehouses unterscheiden sich auch von Data Lakes, in denen Rohdaten gespeichert werden, um sie für künftige Analysen zu verwenden. Ein Data Lake ähnelt einem Lagerraum, in dem Sie Daten ablegen, von denen Sie glauben, dass sie eines Tages benötigt werden. In einem Data Warehouse wissen Sie genau, was Sie haben und wie Sie es nutzen wollen. Ein Data Lake kann als Quelle für Rohdaten dienen, die später extrahiert, umgewandelt und in ein Data Warehouse geladen werden können.

Data Lakehouses sind ein jüngerer Hybrid aus diesen beiden Konzepten. Sie kombinieren die Fähigkeit eines Data Lakes, strukturierte und unstrukturierte Daten zu relativ geringen Kosten zu speichern, mit den fortschrittlichen Analytikfunktionen eines Data Warehouse.

Architektur eines Data Warehouse

Die genauen Funktionen der einzelnen Data Warehouses können variieren, basieren jedoch in der Regel auf einer dreistufigen Architektur, um strukturierte, unstrukturierte und semistrukturierte Daten schnell und effizient zu verarbeiten.

Untere Ebene: Erfassung

In dieser Ebene werden Informationen aus internen und externen Datenquellen erfasst und gespeichert. Diese Daten werden aus ihrer ursprünglichen Quelle extrahiert und umgewandelt oder angereichert, indem Unstimmigkeiten beseitigt, Fehler korrigiert, Dateien in ein einheitliches Format konvertiert und Felder für Berechnungen erstellt werden. Anschließend werden sie in ein zentrales Repository geladen – ein Prozess, der als Extract, Transform, Load (ETL) bezeichnet wird. Modernere Architekturen nutzen die interne Verarbeitungsleistung des Warehouse, um die Daten nach dem Laden umzuwandeln, besser bekannt als ELT.

Mittlere Ebene: Analyse

Auf der mittleren Ebene finden Datenanalysen statt. Hier erfasst das Warehouse auch technische und betriebliche Metadaten, um die Datenherkunft (Data Lineage) nachzuverfolgen, seine Vertrauenswürdigkeit zu gewährleisten und Nutzenden zu helfen, zu verstehen, was die Daten bedeuten und wie sie verwendet werden können. Anschließend werden mit einer OLAP-Engine (Online Analytical Processing) Tausende von Datenzeilen gleichzeitig über mehrere Dimensionen hinweg analysiert. So könnten etwa Verkaufsdaten im Handel nach Artikel, erzieltem Preis, Warenkosten, Transaktionsdatum und -zeit, geografischer Lage, Filialidentität, Kundensegment und vielem mehr analysiert werden.

Obere Ebene: Berichterstattung

Auf der letzten Ebene können Nutzende Ad-hoc-Analysen der Daten durchführen, z. B., indem sie Online-Verkäufe mit denen in den Verkaufsfilialen vergleichen oder die Performance verschiedener Kundensegmente in verschiedenen Regionen analysieren. Nutzende können diese Ergebnisse zur weiteren Analytik in Business-Intelligence-Tools oder Executive Dashboards exportieren.

So können Daten, die aus einem CRM- oder ERP-System (Customer Relationship Management oder Enterprise Resource Planning) stammen, in ein Data Warehouse eingespeist, bereinigt und standardisiert, für die Analyse optimiert, in kleinere domänenspezifische Repositorys (Data Marts) exportiert, oder direkt in BI-Plattformen oder Dashboards importiert werden, wo Nutzende Abfragen mit den Daten durchführen können.

Wichtige Komponenten eines Data Warehouse

Jedes Data Warehouse besteht aus denselben grundlegenden Komponenten. Ein Data Warehouse umfasst immer mindestens:

Datenquellen

Neben CRM-, ERP- und anderen Unternehmensdatenbanken können die Daten auch aus externen Quellen gewonnen werden, wie z. B. aus Marktforschung oder Echtzeit-Datenströme von Webapplikationen oder IoT-Sensoren.

ETL/ELT-Prozesse

Die Tools, die Daten aus jeder Quelle extrahieren, bereinigen und standardisieren und in das Warehouse laden.

Stagingbereich

Eine Pufferzone, in der Rohdaten zwischengespeichert, validiert und aufbereitet werden, bevor sie in das Hauptwarehouse gelangen.

Datenspeicher

Der Ort, an dem sich die Informationen physisch befinden und nach einem Schema organisiert sind – einem Framework, das beschreibt, wie die verschiedenen Daten miteinander in Beziehung stehen.

Metadaten-Managementsysteme

Systeme, die Informationen über die Struktur der Daten, die für sie geltenden Geschäftsregeln und die Historie der Daten während ihrer Umwandlung und Verwendung verwalten.

Abfrage- und Reporting-Tools

Die technische Infrastruktur, die es Nutzenden ermöglicht, Daten auf komplexe Weise abzufragen und differenzierte Antworten zu erhalten. 

Data Governance und Sicherheitskontrollen

Die Kontrollen zur Verwaltung der Benutzerauthentifizierung und Zugriffsberechtigungen, zum Schutz sensibler Daten und zur Prüfung der Einhaltung von Sicherheitsrichtlinien.

Analytics und BI-Anwendungen

Externe Tools, mit denen Nutzende ausführliche Analysen durchführen, Berichte erstellen und die Ergebnisse visualisieren können.

Arten von Data Warehouses

Nicht alle Data Warehouses sind gleich. Einige sind darauf ausgelegt, die langfristige strategische Planung zu unterstützen, andere darauf, den taktischen Betrieb zu managen. Darüber hinaus gibt es Teilmengen von Data Warehouses, die für bestimmte Gruppen innerhalb einer Organisation erstellt wurden. Sie werden in drei Hauptarten unterteilt: Enterprise Data Warehouses (EDW), Operational Data Stores (ODS) und Data Marts.

Enterprise Data Warehouse

Bei einem EDW handelt es sich um ein zentrales Repository, in dem Daten aus allen wichtigen Geschäftssystemen integriert werden. So entsteht eine umfassende Übersicht über das gesamte Unternehmen. Es kombiniert Daten aus verschiedenen Systemen in einem einheitlichen Format, kann historische Daten aus mehreren Jahren enthalten und unterstützt die Entscheidungsfindung sowie die strategische Planung in allen Unternehmensfunktionen.

Operational Data Store

Ein ODS soll die Lücke zwischen Transaktionssystemen schließen, die Echtzeitdaten speichern, und Data Warehouses, die für langfristige Analytik und Strategien verwendet werden. Dabei werden die Daten in ihrem ursprünglichen Format gespeichert, ohne dass ETL- oder ELT-Prozesse erforderlich sind. Da er für die tägliche Entscheidungsfindung und Echtzeitanalyse entwickelt wurde, wird ein ODS häufiger aktualisiert und enthält weniger historische Daten als ein EDW.

Data Mart

Bei einem Data Mart handelt es sich üblicherweise um eine eng begrenzte Teilmenge eines EDW, die auf bestimmte Geschäftsbereiche wie Vertrieb, Marketing, Finanzen oder Personalwesen beschränkt ist. Jeder Data Mart wurde für die analytischen Anforderungen einer bestimmten Geschäftsfunktion optimiert und ist meistens schneller zu implementieren und aufgrund seines begrenzten Umfangs einfacher zu pflegen.

Klassische vs. Cloud Data Warehouses

Wie bei anderen geschäftskritischen IT-Funktionen können Organisationen selbst bestimmen, wie und wo sie ein Data Warehouse bereitstellen möchten. Unternehmen können ihr eigenes Data Warehouse in einem On-Premise-Rechenzentrum unterhalten, in der Cloud hosten lassen oder eine hybride Architektur implementieren, die beides kombiniert. Wie die folgende Tabelle zeigt, gibt es erhebliche Unterschiede zwischen der lokalen (on-premise) und der cloudbasierten Option hinsichtlich Infrastrukturinvestitionen, Performance, Skalierbarkeit, Wartung und Kosteneffizienz.

Betrieblicher Aspekt


Data Warehouse – On-Premises

Data Warehouse ;– Cloud

Infrastruktur


Unternehmen kaufen, installieren und pflegen sämtliche Hard- und Softwaresysteme und verwalten so den gesamten IT-Stack.

Anbieter verwalten die gesamte physische Infrastruktur; Unternehmen können die Infrastruktur über APIs und Webschnittstellen steuern. 

Performance


Definiert durch spezifische Hardware-Konfigurationen, die Teams für bestimmte Workloads optimieren können. Minimale Netzwerklatenz

Elastische Performance kann je nach Workload-Anforderung hoch- oder herunterskaliert werden. Latenzprobleme und die Notwendigkeit, Ressourcen mit anderen Cloud-Mandanten zu teilen, können die Performance beeinträchtigen. 

Skalierbarkeit


Die Erweiterung der Warehouse-Kapazitäten erfordert erhebliche Vorausplanung und Kapitalinvestitionen und kann zu einer Überbereitstellung führen, wenn die Workload-Anforderungen abnehmen.

Speicher- und Rechenressourcen können mithilfe eines verbrauchsbasierten Preismodells nahezu unbegrenzt je nach Workload-Anforderung skaliert werden. 

Wartung


Unternehmen sind für alle Wartungen, Patches und Upgrades verantwortlich, was erhebliche Personalinvestitionen erfordert. 

Anbieter übernehmen die gesamte Infrastrukturwartung, während Unternehmen für Data Governance, Sicherheit und die Anwendungswartung verantwortlich sind.

 

Kosten


Erfordert erhebliche Vorabinvestitionen sowie laufende Betriebskosten, aber die Kosten bleiben unabhängig von der tatsächlichen Nutzung relativ fix und vorhersehbar.

Kosten können direkt mit der Nutzung skaliert werden, was zu unvorhersehbaren Ausgaben und hohen Gebühren für die Datenübertragung führen kann. 

Unternehmen, die sich für On-Premise-Lösungen entscheiden, verfügen in der Regel über starke IT-Organisationen, stellen vorhersehbare, große Workloads bereit und benötigen vollständige Kontrolle über Datenhoheit, Governance und Infrastruktur. Organisationen entscheiden sich für Cloud-Anbieter, wenn ihnen internes Fachwissen fehlt, die Bereitstellung schnell erfolgen muss, die Workloads stark variieren, globaler Zugriff auf Daten erforderlich ist oder die Investitionsausgaben im Voraus minimiert werden sollen.

Viele Organisationen beginnen mit der Einführung hybrider Ansätze, bei denen die Kontrolle über sensible Daten vor Ort mit der Skalierbarkeit der Cloud für Analytik- und Entwicklungs-Workloads kombiniert wird. So können sie sowohl Sicherheit als auch Agilität anhand spezifischer Anforderungen für individuelle Anwendungsfälle optimieren.

Vorteile eines modernen Data Warehouse

Es gibt viele Gründe, warum sich Organisationen für die Bereitstellung eines Data Warehouse entscheiden. Hier einige der wichtigsten:

Bessere Entscheidungsfindung

Als Single Source of Truth stellen Data Warehouses sicher, dass alle innerhalb einer Organisation über die genauesten und aktuellen Informationen für ihre Entscheidungsfindung verfügen.

Analytik auf historischen Daten und Trends

Dank der Möglichkeit, historische Daten über viele Jahre hinweg zu analysieren, können Organisationen langfristige Trends und betriebliche Verhaltensmuster erkennen, was wiederum bei der strategischen Planung hilfreich ist.

Verbesserte Datenqualität und -konsistenz

Die integrierten Validierungs- und Bereinigungsfunktionen eines Data Warehouse gewährleisten, dass die Unternehmensdaten zuverlässig und vollständig sind.

Skalierbarkeit für große Datenvolumina

Cloudbasierte Data Warehouses können Rechen- und Speicherressourcen automatisch bedarfsabhängig skalieren und analytische Workloadspitzen bewältigen, ohne zu viel bereitzustellen.

Unterstützung für erweiterte Analytik und KI

Die meisten Data Warehouses unterstützen erweiterte Analytik-Funktionen wie Regressionsanalysen und Zeitreihenprognosen. Einige verfügen auch über integrierte Funktionen für maschinelles Lernen, mit denen Data Scientists Modelle direkt in der Warehouse-Umgebung verwalten können.

Häufig gestellte Fragen zum Data Warehouse Management

Wie unterscheidet sich ein Data Warehouse von einer regulären Datenbank?

Gewöhnliche Datenbanken werden für die alltäglichen Transaktionen einer Organisation entwickelt, während Data Warehouses für analytische Abfragen historischer Daten ausgelegt sind und sich somit ideal für strategische Entscheidungen eignen.

Welche Daten werden in einem Data Warehouse gespeichert?

Data Warehouses können mehrere Arten von strukturierten, unstrukturierten und semistrukturierten Daten aus einer Vielzahl von Quellen speichern, wie interne Unternehmensdatenbanken, externe Marktberichte und Echtzeit-Datenströme.

Welche Probleme lösen Data Warehouses für Organisationen?

Als Single Source of Truth beseitigen Data Warehouses Datensilos, gewährleisten abteilungsübergreifende Datenkonsistenz, unterstützen Analytik auf historischen Daten, verbessern die Performance von Abfragen für die Analytik und liefern zuverlässige Berichtsfunktionen.

Wie sicher sind Data Warehouses?

Moderne Data Warehouses erfüllen die Sicherheitsanforderungen von Unternehmen, einschließlich Verschlüsselung, Zugriffskontrolle, Prüfprotokolle und Compliance-Zertifizierungen. Cloud-Anbieter stellen oft Sicherheitsfunktionen zur Verfügung, die über das hinausgehen, was die meisten Organisationen selbstständig implementieren könnten.