Infrastruktur

Data Lake

Ein Data Lake ist ein zentrales Speichersystem, das große Mengen von Roh-Daten in ihrem ursprünglichen Format aufbewahrt — strukturiert, semi-strukturiert und unstrukturiert. Im Gegensatz zum Data Warehouse, das nur bereinigte, strukturierte Daten speichert, nimmt ein Data Lake alles auf.

James Dixon (Pentaho) prägte den Begriff 2010 als Gegenentwurf zum Data Warehouse. Die Metapher: Ein Data Warehouse ist wie abgefülltes, gereinigtes Wasser. Ein Data Lake ist der See selbst — das Wasser (die Daten) fließt in seiner natürlichen Form hinein, und man entnimmt und reinigt nur, was man braucht.

Für KI/ML ist der Data Lake besonders attraktiv, weil ML-Modelle oft aus unstrukturierten Daten lernen — Texte, Bilder, Audio, Logs, JSON-Dokumente. Ein Data Warehouse, das nur relationale Tabellen akzeptiert, ist dafür ungeeignet.

Technisch basieren Data Lakes typischerweise auf Cloud Object Storage (Amazon S3, Azure Blob, Google Cloud Storage) — günstig, skalierbar, aber langsam für interaktive Abfragen. Delta Lake (Databricks), Apache Iceberg und Apache Hudi fügen ACID-Transaktionen, Versionierung und Schema-Evolution hinzu — die „Lakehouse"-Architektur, die die Vorteile von Data Lake und Data Warehouse vereint.

Die Falle: Ohne Governance wird ein Data Lake zum „Data Swamp" — einem Datensumpf, in dem niemand weiß, welche Daten wo liegen, wer sie eingespielt hat und ob sie noch aktuell sind. Metadaten-Management (Data Catalogs wie Apache Atlas, Amundsen), Zugriffskontrollen und Dokumentationsstandards sind unverzichtbar.

Storage

Data Lake

Verwandte Begriffe

Fehler melden

Die KI Woche als App