CSV
CSV (Comma-Separated Values) ist ein einfaches Textformat zur Speicherung tabellarischer Daten — jede Zeile ein Datensatz, die Werte durch ein Trennzeichen (traditionell Komma, oft auch Semikolon oder Tab) getrennt. Es ist das am weitesten verbreitete Austauschformat für Daten.
Im Machine Learning ist CSV das Standardformat für tabellarische Datensätze. Kaggle-Wettbewerbe liefern ihre Daten als CSV. pandas.read_csv() ist vermutlich die meistgenutzte Zeile in der Python-Datenwissenschaft. scikit-learn, XGBoost und TensorFlow können CSV-Daten direkt verarbeiten.
Die Stärke von CSV liegt in seiner universellen Lesbarkeit: jeder Texteditor, jede Tabellenkalkulation, jede Programmiersprache kann CSV verarbeiten. Es ist menschenlesbar, einfach zu debuggen und leicht zu generieren.
Die Schwächen werden bei größeren Datenmengen relevant. CSV hat kein Schema — Datentypen (Integer, Float, String, Datum) müssen beim Lesen erraten oder explizit definiert werden. Es gibt keinen Standard für das Escaping von Sonderzeichen, was zu Parsing-Fehlern führt, wenn Kommas in den Daten selbst vorkommen. Und für große Datensätze (Millionen Zeilen) ist CSV ineffizient: Parquet oder Feather komprimieren besser, laden schneller und speichern Typinformationen.
In der KI-Praxis nutzt man CSV typischerweise für den Datenaustausch und kleinere Datensätze. Für produktive ML-Pipelines wird es oft in optimierte Formate konvertiert.