Metrik

Confidence Score

Ein Confidence Score (Konfidenzwert) ist die Wahrscheinlichkeit, die ein Modell seiner eigenen Vorhersage zuordnet — ein Maß für die eigene Sicherheit. Ein Klassifikator, der ein Bild als „Katze" mit 0.97 bewertet, ist sich sehr sicher; bei 0.52 kaum sicherer als Raten.

Confidence Scores sind entscheidend in Produktivsystemen. In der medizinischen Diagnostik: Wenn das Modell nur 60% Konfidenz hat, sollte ein Arzt die Entscheidung manuell überprüfen. Bei autonomen Fahrzeugen: Geringe Konfidenz in der Objekterkennung kann einen sicherheitsrelevanten Fallback auslösen. In der Content-Moderation: Niedrige Konfidenz-Fälle werden an menschliche Reviewer weitergeleitet.

Ein häufiges Problem: Viele Modelle, insbesondere neuronale Netze, sind schlecht kalibriert — sie sind „overconfident". Ein Modell, das 95% Konfidenz ausgibt, liegt vielleicht nur in 80% der Fälle richtig. Guo et al. (2017) zeigten, dass moderne tiefe Netze systematisch überoptimistisch sind.

Kalibrierungsmethoden korrigieren das. Temperature Scaling (eine einzelne Variable, die die Softmax-Ausgabe skaliert) ist überraschend effektiv. Platt Scaling und isotonische Regression sind komplexere Alternativen. Reliability Diagrams (Zuverlässigkeitsdiagramme) visualisieren, ob die vorhergesagte Konfidenz mit der tatsächlichen Trefferquote übereinstimmt.

Im Kontext von LLMs ist das Konzept von Konfidenz besonders komplex: Sprachmodelle können eloquent falsche Antworten mit scheinbar hoher Sicherheit formulieren (Halluzinationen). Die Token-Wahrscheinlichkeiten korrelieren nicht immer mit der faktischen Richtigkeit der Aussage.

Output

Confidence Score

Verwandte Begriffe

Fehler melden

Die KI Woche als App