Sicherheit

Content Filter

Content Filter sind Mechanismen, die problematische Eingaben oder Ausgaben eines KI-Systems erkennen und blockieren — die erste Verteidigungslinie gegen Missbrauch und schädliche Inhalte.

Jeder große Sprachmodellanbieter setzt mehrstufige Filter ein. Input-Filter prüfen, ob der Prompt gegen Nutzungsrichtlinien verstößt (Anleitung zur Waffenherstellung, CSAM-Anfragen, Hassrede). Output-Filter scannen die Modellantwort und blockieren oder modifizieren sie bei Regelverstößen. Safety Classifiers — eigene, kleinere ML-Modelle — bewerten Eingaben und Ausgaben in Echtzeit.

OpenAI nutzt ein mehrstufiges System: Ein Moderations-API-Endpoint bewertet Texte auf Gewalt, Hassrede, Selbstverletzung und sexuelle Inhalte. Zusätzlich sind Sicherheitsrichtlinien ins Modell-Training eingeflossen (RLHF), sodass das Modell selbst problematische Anfragen ablehnt.

Die Herausforderung: Jailbreaking. Die Community findet permanent neue Wege, die Filter zu umgehen — durch kreative Prompt-Formulierungen (DAN, „Do Anything Now"), durch Rollenspiele, durch Codierung der Anfrage in anderen Sprachen oder Zeichensystemen. Es ist ein permanentes Wettrüsten.

Die Debatte um Content Filter ist politisch aufgeladen. Zu strenge Filter zensieren legitime Inhalte (medizinische Aufklärung, künstlerische Auseinandersetzung mit Gewalt). Zu lockere Filter ermöglichen Missbrauch. Was als „schädlich" gilt, ist kulturell und politisch umstritten — ein Filter, der für ein Land angemessen ist, kann in einem anderen als Zensur wahrgenommen werden.

Moderation

Content Filter

Verwandte Begriffe

Fehler melden

Die KI Woche als App