📊 Daten & Verarbeitung Standard

CSV

CSV (Comma-Separated Values) ist ein einfaches Textformat zur Speicherung tabellarischer Daten — jede Zeile ein Datensatz, die Werte durch ein Trennzeichen (traditionell Komma, oft auch Semikolon oder Tab) getrennt. Es ist das am weitesten verbreitete Austauschformat für Daten. Im Machine Learning ist CSV das Standardformat für tabellarische Datensätze. Kaggle-Wettbewerbe liefern ihre Daten als CSV. pandas.read_csv() ist vermutlich die meistgenutzte Zeile in der Python-Datenwissenschaft. scikit-learn, XGBoost und TensorFlow können CSV-Daten direkt verarbeiten. Die Stärke von CSV liegt in seiner universellen Lesbarkeit: jeder Texteditor, jede Tabellenkalkulation, jede Programmiersprache kann CSV verarbeiten. Es ist menschenlesbar, einfach zu debuggen und leicht zu generieren. Die Schwächen werden bei größeren Datenmengen relevant. CSV hat kein Schema — Datentypen (Integer, Float, String, Datum) müssen beim Lesen erraten oder explizit definiert werden. Es gibt keinen Standard für das Escaping von Sonderzeichen, was zu Parsing-Fehlern führt, wenn Kommas in den Daten selbst vorkommen. Und für große Datensätze (Millionen Zeilen) ist CSV ineffizient: Parquet oder Feather komprimieren besser, laden schneller und speichern Typinformationen. In der KI-Praxis nutzt man CSV typischerweise für den Datenaustausch und kleinere Datensätze. Für produktive ML-Pipelines wird es oft in optimierte Formate konvertiert.

Quellen & Referenzen

Data

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

CSV

Quellen & Referenzen

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

CSV

Quellen & Referenzen

Fehler melden

Die KI Woche als App