Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Infrastruktur

Data Warehouse

Ein Data Warehouse ist ein zentrales, optimiertes Speichersystem für strukturierte, bereinigte Daten, das schnelle analytische Abfragen ermöglicht. Im Gegensatz zum Data Lake speichert es keine Rohdaten, sondern vorverarbeitete, schemagebundene Informationen.

Die Architektur folgt typischerweise einem Stern- oder Schneeflockenschema: Fact-Tabellen (Transaktionen, Messwerte) sind über Dimensionstabellen (Produkte, Kunden, Zeit) verknüpft. OLAP-Queries (Online Analytical Processing) können dann effizient über Milliarden von Zeilen aggregieren, filtern und gruppieren.

Die Evolution: Teradata und Oracle dominierten die On-Premise-Ära. Redshift (AWS, 2012), BigQuery (Google) und Snowflake (2012, IPO 2020) brachten das Cloud Data Warehouse — elastische Skalierung, Pay-per-Query, Trennung von Compute und Storage. Snowflake wurde zur größten Software-IPO der Geschichte (33 Milliarden Dollar Bewertung am ersten Handelstag).

Für KI/ML ist das Data Warehouse die typische Quelle für tabellarische Trainingsdaten: Kundenhistorien, Transaktionsdaten, Logfiles. Feature Engineering findet oft im Warehouse statt — SQL-basierte Feature-Berechnungen, die dann in Feature Stores oder direkt ins Training fließen.

Die „Lakehouse"-Architektur (Databricks' Delta Lake, Apache Iceberg) versucht, Data Warehouse (schnelle Abfragen, Schema-Enforcement) und Data Lake (flexible Rohspeicherung, alle Datentypen) zu vereinen — ein Ansatz, der sich als neue Standard-Architektur durchsetzt.

Storage
🔗 Link kopiert!