Das Data Warehouse - Wie funktioniert die Data-Warehouse-Architektur und was bringt sie meinem Unternehmen?

Software Wissen Logo

Data Warehouse beschreibt eine Plattform zur Speicherung von Daten, die nach bestimmten Mustern analysiert werden sollen. In diesem Zusammenhang wird für den ablaufenden Prozess auch häufig das Wort Data Warehousing benutzt. Das dazugehörige Data-Warehouse-System umfasst den gesamten Analyseprozess, den die Daten durchlaufen. Im Data-Warehousing-Prozess wird das Datenlager in vier Schritten verwaltet und ausgewertet:

  1. Datenbeschaffung: Relevante Daten werden aus den Quellsystemen extrahiert, transformiert und in das Data Warehouse geladen.
  2. Datenhaltung: Langfristige Sicherung der Daten im Data Warehouse
  3. Versorgung und Datenhaltung der für die aktuellen Abfragen benötigten Daten.
  4. Datenauswertung: Analyse der jeweiligen Daten bzw. die Versorgung nachgelagerter Anwendungssysteme.

Data-Warehouse-Architektur

Am Anfang steht eine operationale Datenbank, welche beispielsweise relationale Informationen enthält. Darauf folgt die Staging Area, in der die Daten vorsortiert werden. Über spezielle ETL-Prozesse (Extraktion, Transformation, Laden), in welchen die Informationen strukturiert und gesammelt werden, gelangen die Daten dann in das Data Warehouse. Das Data Warehouse stellt somit eine Speicherform parallel zu den operationalen Datenlagern dar. Diese Trennung erfolgt, damit die normalen Abfrageprozesse nicht unterbrochen werden und ein separater Datenzugriff ermöglicht wird. An diesem Punkt setzen diverse Data Access Tools an, um auf die Daten im Warehouse zugreifen zu können. Der Zugriff kann auf verschiedenen Ebenen – den sogenannten Data Marts – erfolgen. Data-Warehouse-Systeme arbeiten überwiegend mit relationalen Datenbanken, welche mit Hilfe der Structured Query Language (Datenbanksprache) ausgelesen werden können. Zu den am häufigsten ausgewerteten Datenformaten gehören beispielsweise Pivot-Tabellen, welche aus Excel gewonnen werden. Bei steigender Datenmenge kommen OLAP-Datenbanken zur Strukturierung der Daten zum Einsatz. Sie können Daten von unterschiedlichen Dimensionen verdichten und Hierarchien bilden. Ein Beispiel hierfür wäre die Abfrage von Umsätzen je nach Produktionsstandort und Produktionsbereich. Wichtig zu beachten ist jedoch die richtige Nutzung von Data-Warehouse-Systemen. Viele Anwenderprobleme sind nicht auf das System selbst, sondern auf unzureichende Datenqualität oder fehlende fachliche Dokumentation zurückzuführen.

Aufgaben von Data Warehouse

Ziel der Nutzung von Data-Warehouse-Systemen ist es, einem Unternehmen einen Überblick über seine Daten zu geben und diese auswertbar zu machen. Um dies möglich zu machen, sind vier Komponenten notwendig:

  1. Eine zentrale Datenhaltung: Alle relevanten Daten für die Analyse müssen komprimiert in einem  Warehouse zusammengefasst werden.
  2. Trennung von analytischen (Warehouse) und operativer (unverarbeitete Daten) Datenbeständen: Die Daten des Warehouse und die Daten des operativen Systems müssen getrennt voneinander verwaltet werden. Die Daten im Warehouse sind für umfangreiche Abfragen konzipiert. Damit die Performance des operativen Systems nicht beeinflusst wird, müssen sie von den Analysedaten getrennt werden.
  3. Datenintegration unterschiedlicher Quellen: Die meisten Quellen bieten Datenformate, die durch ETL-Prozesse ausgelesen werden können. Die Art der Datenformate entscheidet über die zu verwendende Datenbank und die Auslesesysteme.
  4. Die Historisierung der Daten: Im Warehouse werden Daten über längere Zeiträume gespeichert. Dies ermöglicht eine zeitraumbezogene Auswertung von Daten (z.B. Quartalsumsätze). Das wäre bei operativen Datenbanken nicht möglich, da die Informationen hier stets überschrieben werden.

Vorteile von Data-Warehouse-Systemen:

  • bewährte Architektur
  • bereichsspezifische Tools
  • Verfügbarkeit von Optimizer-Komponenten (Datenqualitätsmanagement)
  • hohe Datenkonsistenz

Nachteile von Data Warehouse Systemen

  • lange Ladezeiten bei komplexeren Daten und steigendem Datenvolumen
  • keine Verarbeitung von unstrukturierten Daten (z.B. Filme oder Audiodateien)
  • kein Echtzeitstreaming der Daten
  • lange Antwortzeiten bei Ad-hoc-Abfragen

Unterschiede zwischen Data Warehouse und Big Data Analytics

Der Blogger und IT-Experte Bill Inmon ist der Überzeugung, dass Data Warehouse eine feste Systemarchitektur darstelle, wohingegen Big Data eine Technologie bezeichne. Schlussendlich werden beide Systeme bzw. Methoden zur Analyse von Daten verwendet. Data Warehouse ist dabei besonders auf die Analyse herkömmlicher, strukturierter Informationen aus SQL-Datenbanken spezialisiert und kann durch viele Tools und Optimierungen punkten. Big Data Analytics hingegen folgt keiner festen Systemgrundlage und kann flexibler eingesetzt werden. Es schließt eine Vielzahl von Auswertungs-Tools für unstrukturierte Daten ein, die auf dem Markt immer stärker an Bedeutung gewinnen. Außerdem ist Big Data Analytics speziell für den Einsatz bei großen Datenmengen geeignet, ohne die Ladezeiten zu verlängern oder an Effizienz zu verlieren. Da Big Data Analysen noch ein recht junges Feld darstellen, sind einige der Analysemethoden und Auswertungstools noch nicht ausgereift.

 

Weitere Informationen zu BI-Software und die neusten Trends finden Sie in unserer Studie:

BI Studie 2014/2015

Finden Sie hier weiteres Wissen unserer Experten zum Thema Das Data Warehouse - Wie funktioniert die Data-Warehouse-Architektur und was bringt sie meinem Unternehmen?

| Data-Warehouse | Business Intelligence |

 

Share

Wissenspool Schlagwortwolke