Defense
Defense (Verteidigung) im KI-Kontext umfasst Maßnahmen, die KI-Systeme gegen Angriffe, Manipulation und Missbrauch schützen — ein wachsendes Feld an der Schnittstelle von Cybersecurity, ML-Sicherheit und Governance.
Adversarial Defense schützt Modelle gegen gezielte Eingabemanipulationen. Adversarial Training — das bewusste Einbeziehen manipulierter Beispiele ins Training — ist der simpelste, aber effektivste Ansatz. Certified Defense bietet mathematische Garantien, dass kleine Eingabeänderungen die Vorhersage nicht ändern. Input Sanitization prüft und bereinigt Eingaben vor der Verarbeitung.
Prompt-Defense schützt LLMs gegen Prompt Injection — Angriffe, bei denen eingeschleuste Anweisungen das Modell dazu bringen, seine System-Instruktionen zu ignorieren. Techniken: Input/Output-Filterung, System-Prompt-Hardening, Separierung von Instruktions- und Datenebenen (obwohl letzteres bei heutigen Modellen technisch nicht vollständig umsetzbar ist).
Model Defense schützt das Modell selbst: Model Watermarking (versteckte Markierungen, die den Ersteller identifizieren), Model Encryption (das Modell wird verschlüsselt bereitgestellt) und Differential Privacy (mathematische Garantie, dass Trainingsdaten nicht aus dem Modell extrahiert werden können).
Organisatorische Defense: Red-Teaming (systematische Suche nach Schwachstellen durch interne oder externe Teams), Bug Bounties (Belohnung für gemeldete Sicherheitslücken) und verantwortungsvolle Offenlegung (Responsible Disclosure).
Das UK AI Safety Institute, das US AI Safety Institute und die EU AI Agency sind die ersten staatlichen Institutionen, die sich systematisch mit KI-Verteidigung befassen.