Was passiert, wenn KI-Agenten nicht mehr nur Chatbot-Fragen beantworten, sondern echte Freelance-Aufträge erledigen — Grafikdesign, 3D-Modellierung, Videoschnitt, Datenanalyse? Das Center for AI Safety (CAIS) und Scale Labs messen genau das mit dem Remote Labor Index (RLI). Die heute veröffentlichten Ergebnisse markieren einen Wendepunkt: Die Automatisierungsrate hat sich in acht Monaten versechsfacht.
Von 2,5 auf 16,1 Prozent in acht Monaten
Der RLI misst, wie oft ein KI-Agent ein echtes Freelance-Projekt — mit Client-Brief, Eingabedateien und konkretem Deliverable — so abschließt, dass das Ergebnis mindestens so gut ist wie die Arbeit eines bezahlten Profis. Jedes Ergebnis wird von menschlichen Evaluatoren gegen einen professionellen Gold-Standard bewertet.
Bei der Einführung des Benchmarks im Oktober 2025 lag die beste Automatisierungsrate bei 2,5 Prozent (GPT-5.2). Der bisherige Spitzenreiter war Opus 4.6 mit dem Claude-Cowork-Scaffold bei 4,17 Prozent. Heute sieht das Ranking so aus:
- Fable 5: 16,1 % Automatisierungsrate — mit Abstand der neue Spitzenreiter
- Opus 4.8: 8,3 % — doppelt so viel wie sein Vorgänger Opus 4.6
- GPT-5.5: 6,3 % — ebenfalls deutlich über allen bisherigen Modellen
Die Frontier hat sich in unter acht Monaten mehr als versechsfacht. CAIS betont: Selbst unter der pessimistischsten Annahme — Fable 5 hätte alle 22 noch nicht ausgewerteten Projekte (von 240) verfehlt — läge die Rate bei 14,6 Prozent und damit immer noch höher als bei jedem anderen Modell.
Echte Arbeit, nicht nur Benchmarks
Was den RLI von klassischen Benchmarks unterscheidet: Es handelt sich um reale Freelance-Projekte aus Bereichen wie 3D & CAD, Architektur, Grafikdesign, Video & Animation, Audio, Datenanalyse und Web-Apps. Die zugrunde liegende Studie dokumentiert konkrete Beispiele — vom Ring-Design in 3D bis zum animierten Werbevideo.
Ein Beispiel aus dem Blog: Ein Client beauftragt die Neugestaltung eines Verlobungsrings mit verändertem Schliff, inklusive 3D-Modell und fotorealistischem Rendering. Fable 5 liefert ein qualitativ deutlich besseres Ergebnis als alle Vorgänger — bleibt aber bei genauerer Betrachtung unter professionellem Niveau (vereinfachtes Prong-Design). Die Lücke schließt sich, ist aber noch da.
Was die Zahlen bedeuten — und was nicht
16,1 Prozent heißt: Bei etwa jedem sechsten Freelance-Projekt liefert Fable 5 ein Ergebnis, das professioneller Qualität standhält. Das ist beeindruckend — aber es heißt auch: Bei fünf von sechs Projekten reicht es nicht. Die Automatisierung digitaler Arbeit steigt messbar, aber sie ist noch weit von einer Disruption des Freelance-Marktes entfernt.
Die Dynamik ist allerdings beunruhigend schnell. Von 2,5 auf 16,1 Prozent in acht Monaten — wenn sich dieses Tempo hält, könnten die Zahlen in einem Jahr ganz anders aussehen. CAIS positioniert den RLI bewusst als Frühwarnsystem: ein Instrument, das zeigt, wie schnell sich die wirtschaftliche Leistungsfähigkeit von KI-Agenten entwickelt — und wo die Modellgeneration der letzten Woche tatsächlich steht.
🎯 Was das für die Praxis bedeutet
1. Freelance-Arbeit unter Druck: Wer in Bereichen wie Grafikdesign, einfacher 3D-Modellierung oder Datenanalyse arbeitet, sollte die RLI-Zahlen im Blick behalten. 16,1 Prozent sind noch kein Ersatz — aber der Trend zeigt steil nach oben.
2. Qualitätskontrolle bleibt entscheidend: Auch bei 16 Prozent Automatisierungsrate sind 84 Prozent der KI-Ergebnisse nicht gut genug. Wer KI-Agenten für Produktionsarbeit einsetzt, braucht menschliche Review-Prozesse.
3. RLI als Planungsinstrument: Für Unternehmen, die Freelance-Budgets planen, liefert der RLI-Dashboard erstmals belastbare Daten darüber, welche Aufgabenbereiche KI-Agenten bereits abdecken können — und welche nicht.
4. Fable 5 als Outlier beobachten: Der Abstand zwischen Fable 5 (16,1 %) und dem Zweitplatzierten Opus 4.8 (8,3 %) ist bemerkenswert. Ob das an Fable 5 spezifisch liegt oder sich mit anderen Frontier-Modellen replizieren lässt, wird sich zeigen.


