Modelle & Technologie

Faktor 1.000: Die stille Effizienzrevolution der KI-Modelle

Was vor 18 Monaten 1.000 Dollar kostete, kostet heute einen Dollar. Die Daten hinter dem dramatischsten Kostenverfall der Technologiegeschichte.

Kai · 07. Mar 2026 · 6 Min. Lesezeit

Was Sam Altman in einem kürzlich viral gegangenen Auftritt beiläufig erwähnte, klingt wie eine Übertreibung: Die Kosten für KI-Intelligenz seien in 18 Monaten um den Faktor 1.000 gesunken. Was vor anderthalb Jahren 1.000 Dollar kostete, kostet heute einen Dollar. Doch wer die Daten prüft, stellt fest: Es ist keine Übertreibung. Es ist konservativ.

Die Effizienzsteigerung bei KI-Modellen folgt keinem normalen Tempo mehr. Sie übersteigt das Mooresche Gesetz, sie übersteigt die Lernkurve der Halbleiterindustrie, und sie hat Konsequenzen, die das produzierende Gewerbe, den Dienstleistungssektor und die Wissensarbeit gleichermaßen betreffen werden. Wer die Zahlen kennt, versteht, warum die größten Technologieunternehmen der Welt gerade Hunderte Milliarden investieren - und warum selbst Skeptiker nervös werden.

99,7 Prozent günstiger - in unter zwei Jahren

Die wohl eindrucksvollste Visualisierung stammt von Ethan Mollick, Professor an der Wharton School. In einem regelmäßig aktualisierten Chart zeigt er, wie sich die Kosten-Performance-Grenze verschiebt: Modelle auf dem Niveau von GPT-4 - Anfang 2023 noch das Nonplusultra - kosten inzwischen 99,7 Prozent weniger. Und selbst die leistungsstärksten Modelle der Welt, von Gemini 2.5 bis DeepSeek R1, sind immer noch 82 Prozent günstiger als GPT-4 bei seinem Launch.

Das bestätigt der Stanford AI Index Report 2025 in seiner bislang umfassendsten Analyse: Die Inferenzkosten für Systeme auf GPT-3.5-Niveau sind von November 2022 bis Oktober 2024 um das 280-fache gesunken - von 20 Dollar auf 7 Cent pro Million Tokens. Je nach Aufgabentyp belaufen sich die jährlichen Preisrückgänge auf das 9- bis 900-fache.

390x Effizienz auf dem ARC-AGI-Benchmark

Besonders drastisch zeigt sich der Trend bei Benchmarks, die reale Problemlösungsfähigkeit messen. Das ARC-AGI-1 Leaderboard dokumentiert einen Sprung, der die Branche aufhorchen ließ: Ende 2024 erreichte OpenAIs o3 einen Score von 88 Prozent - zu Kosten von rund 4.500 Dollar pro Aufgabe. Nur ein Jahr später, im Dezember 2025, schaffte GPT-5.2 Pro mit 90,5 Prozent ein besseres Ergebnis - für gerade einmal 11,64 Dollar.

Das ist eine Effizienzsteigerung um den Faktor 390 in einem einzigen Jahr. Rohan Paul brachte es auf den Punkt: „Human labor don't exactly get 400x cheaper in a year - that's not how humans scale." In keiner anderen Industrie der Welt sinken die Kosten bei gleichzeitig steigender Qualität in dieser Geschwindigkeit.

J.P. Morgan bestätigt: Der Kostenverfall ist strukturell

Dass es sich nicht um einen Ausreißer handelt, belegen die Analysten von J.P. Morgan Asset Management. In einer vielbeachteten Untersuchung dokumentieren sie den systematischen Verfall der Kosten-Performance-Frontier von März 2023 bis September 2025. Ihre Schlussfolgerung: Die Kosten für die Nutzung von KI sind regelrecht abgestürzt. Das GPT-5-Nano-Modell aus dem August 2025 erreichte eine Kostenreduktion von 99,7 Prozent verglichen mit der Frontier nur anderthalb Jahre zuvor.

Was das in der Praxis bedeutet: Eine KI-Anfrage, die im Frühjahr 2023 noch 100 Dollar kostete, schlägt Ende 2025 mit weniger als 30 Cent zu Buche. Und die aktuelle Generation - GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6 - drückt die Preise weiter nach unten, während die Fähigkeiten nach oben schießen.

Gleiche Größe, andere Welt: Der Generationssprung bei kleinen Modellen

Die Effizienzsteigerung beschränkt sich nicht auf die großen Flaggschiff-Modelle. Besonders eindrucksvoll zeigt sie sich bei kompakten Modellen, die auf lokaler Hardware laufen. Ein viraler Vergleich stellt Modelle mit rund 9 Milliarden Parametern aus zwei Generationen gegenüber: Llama 2 7B und Mistral 7B aus Anfang 2024 gegen Qwen 3.5 9B aus Anfang 2026.

Das Ergebnis ist frappierend: Bei identischer Modellgröße - und damit identischen Hardware-Anforderungen - übertrifft Qwen 3.5 die Vorgänger auf allen relevanten Benchmarks massiv: MMLU, GSM8K, HumanEval, MATH und GPQA. Zwei Jahre Forschung haben aus einem Modell, das bestenfalls einfache Texte produzieren konnte, einen kompakten Alleskönner gemacht, der auf einem handelsüblichen Laptop komplexe mathematische Probleme löst und produktionsreifen Code schreibt.

Warum das keine Randnotiz ist

Die Zahlen mögen abstrakt klingen, ihre Konsequenzen sind es nicht. Fünf Mechanismen treiben die Effizienzrevolution:

Algorithmische Optimierung: Bessere Trainingsmethoden, Destillation und Mixture-of-Experts-Architekturen extrahieren mehr Leistung aus weniger Parametern.
Hardware-Iteration: NVIDIAs Vera Rubin NVL72 senkt die Kosten pro Token auf ein Zehntel.
Wettbewerb aus China: DeepSeek, Qwen und MiniMax liefern unter Open-Source-Lizenz Frontier-Leistung zu Bruchteilen der westlichen Kosten.
Prompt-Caching und Smart Routing: Technologien wie Prompt-Caching (bis 90 Prozent Kostenreduktion) und automatisches Modell-Routing zu günstigeren Modellen bei einfachen Aufgaben drücken die Betriebskosten weiter.
Architekturwechsel: Diffusion-LLMs wie Mercury 2 brechen das Monopol der Transformer-Architektur und eröffnen fundamental effizientere Rechenwege.

Die stille Explosion

Wer in Unternehmensstrategien denkt, muss die Tragweite dieser Dynamik begreifen. Wenn die Kosten für KI-Intelligenz alle 18 Monate um den Faktor 1.000 sinken, verändert das nicht einzelne Geschäftsmodelle - es verändert die gesamte Kostenstruktur der Wirtschaft. Was heute noch zu teuer ist, um automatisiert zu werden, wird in einem Jahr zum Schnäppchen.

Jack Dorseys Block hat über 4.000 Stellen gestrichen - nicht trotz, sondern wegen Rekordzahlen. Amazon-CEO Jassy spricht offen von weniger Mitarbeitern. WiseTech ersetzt 2.000 Entwickler durch KI-Agenten. All das wäre vor zwei Jahren ökonomisch nicht möglich gewesen. Heute schon - und in zwölf Monaten wird es ein Vielfaches davon sein.

Der Stanford AI Index 2025 fasst es nüchtern zusammen: Die Trainingskosten für Frontier-Modelle steigen weiter - aber die Kosten für deren Nutzung fallen in einem Tempo, das historisch beispiellos ist. Das bedeutet: Die Eintrittsbarriere sinkt, die Verfügbarkeit steigt, und die Disruption beschleunigt sich. Wer wettet, dass sich dieser Trend bald verlangsamt, wettet gegen die gesamte Beweislage.

🎯 Was das für die Praxis bedeutet

1. KI-Budgets jetzt planen - aber flexibel halten: Was heute 10.000 Euro pro Monat kostet, wird in einem Jahr vielleicht 100 Euro kosten. Unternehmen sollten KI-Investments nicht aufschieben, aber kurzfristige Lock-in-Verträge vermeiden und sich die Flexibilität sichern, mit sinkenden Preisen zu wechseln.

2. Kleine Modelle ernst nehmen: Die Generationssprünge bei 7B/9B-Modellen zeigen: Für viele Unternehmensanwendungen reicht ein lokales Modell aus, das auf einem handelsüblichen Server oder sogar Laptop läuft. Das spart Cloud-Kosten, schützt sensible Daten und eliminiert API-Abhängigkeiten.

3. Den Wettbewerb beobachten: Wer glaubt, sein Geschäftsmodell sei zu komplex für KI-Automatisierung, sollte die Kostenentwicklung studieren. Die Aufgaben, die heute noch zu teuer für KI sind, werden durch den Faktor-1.000-Effekt in Monaten machbar - nicht in Jahren.

4. Nicht nur auf die Großen schauen: DeepSeek, Qwen, MiniMax und Open-Source-Modelle liefern inzwischen Frontier-Leistung. Wer sich ausschließlich auf OpenAI oder Google verlässt, übersieht die günstigeren Alternativen - und verschenkt massive Effizienzpotenziale.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen

Stanford AI Index 2025 ↗ Epoch AI ↗