Explainability
Explainability (Erklärbarkeit, auch Interpretability) ist die Fähigkeit, die Entscheidungen eines KI-Systems für Menschen verständlich zu machen. Im Zeitalter von Black-Box-Modellen wie Deep Learning und LLMs ist das eine der größten Herausforderungen.
Das Spannungsfeld: Die leistungsstärksten Modelle (tiefe neuronale Netze, LLMs) sind die am wenigsten erklärbaren. Einfache Modelle (Entscheidungsbäume, lineare Regression) sind direkt interpretierbar, aber weniger genau. Der Tradeoff zwischen Leistung und Erklärbarkeit ist real — aber nicht absolut.
Post-hoc-Erklärungsmethoden machen Black-Box-Modelle nachträglich interpretierbar. LIME (Local Interpretable Model-Agnostic Explanations, Ribeiro et al., 2016): Erklärt einzelne Vorhersagen durch ein lokales, interpretierbares Surrogat-Modell. SHAP (SHapley Additive exPlanations, Lundberg & Lee, 2017): Weist jedem Feature einen Beitrag zur Vorhersage zu, basierend auf spieltheoretischen Konzepten. Attention Maps: Visualisieren, worauf ein Transformer „achtet" — aber Achtung: Attention ≠ Erklärung.
Der EU AI Act verlangt Erklärbarkeit für Hochrisiko-KI-Systeme. Art. 22 DSGVO verlangt das Recht auf „aussagekräftige Informationen über die involvierte Logik" bei automatisierten Entscheidungen.
Die offene Frage: Ist Erklärbarkeit für LLMs überhaupt möglich? Chain-of-Thought-Prompting erzeugt Erklärungen, aber ob diese die tatsächliche interne Verarbeitung widerspiegeln, ist unklar. Anthropic's Mechanistic Interpretability-Forschung versucht, individuelle Neuronen und Circuits in neuronalen Netzen zu verstehen — mit vielversprechenden, aber noch begrenzten Ergebnissen.