Data Science
Data Science ist die interdisziplinäre Praxis, aus Daten Erkenntnisse und Vorhersagen zu gewinnen — eine Kombination aus Statistik, Informatik, Domänenwissen und Kommunikation.
Der Begriff wurde durch DJ Patil und Jeff Hammerbacher geprägt, die bei LinkedIn und Facebook die ersten Data-Science-Teams aufbauten. Harvard Business Review nannte Data Scientist 2012 den „Sexiest Job of the 21st Century." Drew Conways Venn-Diagramm definierte das Kompetenzprofil an der Schnittmenge von Statistik/Mathematik, Programmierung und Domänenwissen.
Der Data-Science-Workflow folgt einem etablierten Muster: Fragestellung definieren → Daten sammeln → Exploratory Data Analysis (EDA) → Feature Engineering → Modellierung → Evaluation → Deployment → Monitoring. In der Praxis ist der Prozess iterativ, nie linear.
Die Tool-Landschaft: Python (pandas, scikit-learn, PyTorch) und R sind die dominierenden Sprachen. Jupyter Notebooks sind das Standard-Werkzeug für explorative Analyse. SQL ist unverzichtbar für Datenextraktion. Cloud-Plattformen (AWS SageMaker, GCP Vertex AI) bieten managed Infrastruktur.
KI verändert Data Science selbst. Code-Interpreter in ChatGPT, Claude und Gemini können Datenanalysen durchführen, Visualisierungen erstellen und statistische Tests berechnen. Für Routineanalysen reicht zunehmend eine natürlichsprachliche Beschreibung. Die verbleibende menschliche Kernkompetenz: Die richtigen Fragen stellen, Ergebnisse kritisch bewerten und in Handlungsempfehlungen übersetzen.
Die Ausdifferenzierung der Rolle ist deutlich: ML Engineer, Analytics Engineer, Research Scientist und AI Engineer sind spezialisierte Abkömmlinge des generalistischen Data Scientists.