Forschung & Wissenschaft

Remote Labor Index: KI-Agenten automatisieren jetzt sechsmal mehr Freelance-Arbeit als vor acht Monaten

Das Center for AI Safety misst erstmals einen massiven Sprung: Fable 5 erreicht 16,1 Prozent Automatisierungsrate bei echten Freelance-Projekten — noch im Oktober waren es 2,5 Prozent.

Kai · 01. Juli 2026 · 3 Min. Lesezeit

Was passiert, wenn KI-Agenten nicht mehr nur Chatbot-Fragen beantworten, sondern echte Freelance-Aufträge erledigen — Grafikdesign, 3D-Modellierung, Videoschnitt, Datenanalyse? Das Center for AI Safety (CAIS) und Scale Labs messen genau das mit dem Remote Labor Index (RLI). Die heute veröffentlichten Ergebnisse markieren einen Wendepunkt: Die Automatisierungsrate hat sich in acht Monaten versechsfacht.

Von 2,5 auf 16,1 Prozent in acht Monaten

Der RLI misst, wie oft ein KI-Agent ein echtes Freelance-Projekt — mit Client-Brief, Eingabedateien und konkretem Deliverable — so abschließt, dass das Ergebnis mindestens so gut ist wie die Arbeit eines bezahlten Profis. Jedes Ergebnis wird von menschlichen Evaluatoren gegen einen professionellen Gold-Standard bewertet.

Bei der Einführung des Benchmarks im Oktober 2025 lag die beste Automatisierungsrate bei 2,5 Prozent (GPT-5.2). Der bisherige Spitzenreiter war Opus 4.6 mit dem Claude-Cowork-Scaffold bei 4,17 Prozent. Heute sieht das Ranking so aus:

Fable 5: 16,1 % Automatisierungsrate — mit Abstand der neue Spitzenreiter
Opus 4.8: 8,3 % — doppelt so viel wie sein Vorgänger Opus 4.6
GPT-5.5: 6,3 % — ebenfalls deutlich über allen bisherigen Modellen

Die Frontier hat sich in unter acht Monaten mehr als versechsfacht. CAIS betont: Selbst unter der pessimistischsten Annahme — Fable 5 hätte alle 22 noch nicht ausgewerteten Projekte (von 240) verfehlt — läge die Rate bei 14,6 Prozent und damit immer noch höher als bei jedem anderen Modell.

Echte Arbeit, nicht nur Benchmarks

Was den RLI von klassischen Benchmarks unterscheidet: Es handelt sich um reale Freelance-Projekte aus Bereichen wie 3D & CAD, Architektur, Grafikdesign, Video & Animation, Audio, Datenanalyse und Web-Apps. Die zugrunde liegende Studie dokumentiert konkrete Beispiele — vom Ring-Design in 3D bis zum animierten Werbevideo.

Ein Beispiel aus dem Blog: Ein Client beauftragt die Neugestaltung eines Verlobungsrings mit verändertem Schliff, inklusive 3D-Modell und fotorealistischem Rendering. Fable 5 liefert ein qualitativ deutlich besseres Ergebnis als alle Vorgänger — bleibt aber bei genauerer Betrachtung unter professionellem Niveau (vereinfachtes Prong-Design). Die Lücke schließt sich, ist aber noch da.

Was die Zahlen bedeuten — und was nicht

16,1 Prozent heißt: Bei etwa jedem sechsten Freelance-Projekt liefert Fable 5 ein Ergebnis, das professioneller Qualität standhält. Das ist beeindruckend — aber es heißt auch: Bei fünf von sechs Projekten reicht es nicht. Die Automatisierung digitaler Arbeit steigt messbar, aber sie ist noch weit von einer Disruption des Freelance-Marktes entfernt.

Die Dynamik ist allerdings beunruhigend schnell. Von 2,5 auf 16,1 Prozent in acht Monaten — wenn sich dieses Tempo hält, könnten die Zahlen in einem Jahr ganz anders aussehen. CAIS positioniert den RLI bewusst als Frühwarnsystem: ein Instrument, das zeigt, wie schnell sich die wirtschaftliche Leistungsfähigkeit von KI-Agenten entwickelt — und wo die Modellgeneration der letzten Woche tatsächlich steht.

🎯 Was das für die Praxis bedeutet

1. Freelance-Arbeit unter Druck: Wer in Bereichen wie Grafikdesign, einfacher 3D-Modellierung oder Datenanalyse arbeitet, sollte die RLI-Zahlen im Blick behalten. 16,1 Prozent sind noch kein Ersatz — aber der Trend zeigt steil nach oben.

2. Qualitätskontrolle bleibt entscheidend: Auch bei 16 Prozent Automatisierungsrate sind 84 Prozent der KI-Ergebnisse nicht gut genug. Wer KI-Agenten für Produktionsarbeit einsetzt, braucht menschliche Review-Prozesse.

3. RLI als Planungsinstrument: Für Unternehmen, die Freelance-Budgets planen, liefert der RLI-Dashboard erstmals belastbare Daten darüber, welche Aufgabenbereiche KI-Agenten bereits abdecken können — und welche nicht.

4. Fable 5 als Outlier beobachten: Der Abstand zwischen Fable 5 (16,1 %) und dem Zweitplatzierten Opus 4.8 (8,3 %) ist bemerkenswert. Ob das an Fable 5 spezifisch liegt oder sich mit anderen Frontier-Modellen replizieren lässt, wird sich zeigen.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

CAIS Blog ↗ @CAIS auf X ↗ CAIS Dashboard ↗ Remote Labor Index ↗ arXiv Paper ↗

Aktuell

Aktuell

Aktuell

Aktuell

Aktuell

Die KI Woche — Podcast Show

Markus M. Kirchmair

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Remote Labor Index: KI-Agenten automatisieren jetzt sechsmal mehr Freelance-Arbeit als vor acht Monaten

Von 2,5 auf 16,1 Prozent in acht Monaten

Echte Arbeit, nicht nur Benchmarks

Was die Zahlen bedeuten — und was nicht

🎯 Was das für die Praxis bedeutet

Die KI Woche als App

Podcast Show

KI-Videos

KI-Events

KI-Tools

KI-Trainings

KI-Lexikon

KI Disruption

Die KI-Bibel

JOB ANGST

KI für Einsteiger

Remote Labor Index: KI-Agenten automatisieren jetzt sechsmal mehr Freelance-Arbeit als vor acht Monaten

Von 2,5 auf 16,1 Prozent in acht Monaten

Echte Arbeit, nicht nur Benchmarks

Was die Zahlen bedeuten — und was nicht

🎯 Was das für die Praxis bedeutet

Das könnte Sie auch interessieren

Claude Sonnet 5 unter der Lupe: Effizienter als Opus und doch überraschend teuer

Sonnet 5 ist da: Kannibalisiert Anthropic sein leistungsstarkes Opus 4.8 Modell?

Agents-A1: Wie ein 35-Milliarden-Modell Billionen-Parameter-Giganten schlägt

Fehler melden

Die KI Woche als App