In den letzten Tagen ging ein Narrativ durch die Wirtschaftspresse: KI sei zu teuer für Unternehmen. Softwarefirmen verbrennen ihre AI-Budgets schneller als geplant, manche haben ihr Jahresbudget bereits nach vier Monaten aufgebraucht. Manche wollten diese Schlagzeilen sogar als Platzen einer KI-Blase interpretieren. Doch sie verbergen eine gegensätzliche Entwicklung: Die tatsächlichen Preise für KI-Rechenleistung fallen in einem Tempo, das selbst Moores Gesetz alt aussehen lässt.
Wie dramatisch der Rückgang tatsächlich ist, hat Sam Altman kürzlich beziffert: Die Kosten, um ein schwieriges Reasoning-Problem zu lösen, seien seit der Veröffentlichung von o1 vor rund 16 Monaten um das 1.000-Fache gefallen - verglichen mit dem, was heute das Modell 5.4 leistet. Altman nennt zwei Hauptfaktoren: bessere Trainingsmethoden und massiv optimierte Inferenz-Systeme. Und während OpenAI diesen Trend über anderthalb Jahre erreicht hat, schaffen chinesische Anbieter vergleichbare Sprünge derzeit in wenigen Wochen.
Xiaomi und DeepSeek drücken die Preise ins Bodenlose
Am 26. Mai 2026 hat Xiaomi die API-Preise für sein Frontier-Modell MiMo-V2.5 dauerhaft um bis zu 99 Prozent gesenkt. Input-Tokens kosten bei Cache-Treffern jetzt 0,025 Yuan pro Million - umgerechnet weniger als ein halber US-Cent. Gleichzeitig hat Xiaomi die Preisstruktur vereinfacht: Egal ob kurzer Prompt oder 128k-Kontext, der Preis bleibt gleich. Bestehende Token-Pläne wurden aufgestockt - Nutzer erhalten fünf- bis achtmal mehr Tokens zum selben Preis.
Wenige Tage zuvor hat DeepSeek seinen zeitlich begrenzten 75-Prozent-Rabatt auf das V4-Pro-Modell permanent gemacht. Das Modell mit 1,6 Billionen Parametern und einer Million Token Kontextfenster kostet jetzt dauerhaft ein Viertel des ursprünglichen Preises - zwischen 0,36 und 87 US-Cent pro Million Tokens, je nach Nutzungsmuster.
Der Preisvergleich ist vernichtend
Wer 100 Millionen Tokens pro Monat verbraucht - für ein mittelgroßes Unternehmen mit aktiver KI-Nutzung durchaus realistisch - zahlt bei GPT-5.5 rund 3.000 Dollar, bei Claude etwa 2.500 Dollar. Bei DeepSeek V4 Pro oder Xiaomi MiMo-V2.5 liegen die Kosten bei rund 87 Dollar. Das ist nicht zehnmal günstiger. Das ist 30- bis 35-mal günstiger - bei einer Leistung, die für die meisten produktiven Anwendungsfälle wie Coding, Agenten-Workflows und tägliche Büroarbeit kaum Unterschiede zeigt.
Viele Entwickler arbeiten deshalb inzwischen mit einem Hybrid-Ansatz: Teure US-Modelle werden nur noch für die schwierigsten fünf bis zehn Prozent der Aufgaben eingesetzt - komplexes Reasoning, sicherheitskritische Entscheidungen, regulierte Branchen. Für alles andere reichen die chinesischen Alternativen.
Der Preiskrieg ist breiter als Xiaomi und DeepSeek
Hinter den beiden Flaggschiffen formiert sich ein ganzes Feld aggressiver Anbieter. Alibabas Qwen-Serie (aktuell Qwen 3.5 und 3.6) gilt als einer der stärksten Allrounder für Coding und multimodale Aufgaben - oft Open Source oder mit großzügigem Free Tier. Moonshot AI positioniert seine Kimi-Modelle (K2.5/K2.6) gezielt bei Entwicklern, die lange Kontexte und Agenten-Workflows brauchen. Zhipu AI mit der GLM-Serie, MiniMax mit der M2-Reihe und ByteDance mit den Doubao-Modellen runden das Bild ab. Jeder dieser Anbieter liegt preislich weit unter den westlichen Frontier-Modellen.
Es zeichnet sich eine klare Marktstruktur ab: China gegen den Rest. Nicht weil die chinesischen Modelle durchweg besser wären - bei den absolut härtesten Benchmarks liegen GPT-5.5, Claude und Gemini weiterhin vorne. Sondern weil die Preisdifferenz so extrem ist, dass sie für die Mehrheit der produktiven Anwendungsfälle schlicht nicht mehr zu rechtfertigen ist.
Warum Unternehmen trotzdem zu viel zahlen
Wenn die Preise derart fallen, warum verbrennen dann so viele Firmen ihre Budgets? Die Antwort liegt nicht in den API-Kosten selbst, sondern in den Fehlanreizen, die viele Unternehmen geschaffen haben. Unter dem Schlagwort "Tokenmaxxing" koppeln Teams ihre Produktivitätsbewertung direkt an den Token-Verbrauch - wer mehr Tokens nutzt, gilt als innovativer. Das führt zu massiver Verschwendung.
Dazu kommen technische Probleme: Agentische Workflows, bei denen autonome Systeme in rekursive Schleifen geraten und in einer einzigen Session tausende Dollar an Tokens verbrennen, bevor jemand eingreift. Und klassische IT-Planungsfehler - laut Branchendaten verfehlen 80 bis 85 Prozent aller Unternehmen ihre KI-Infrastruktur-Prognosen um mehr als 25 Prozent.
Das Problem ist also nicht, dass KI zu teuer ist. Das Problem ist, dass viele Unternehmen sie falsch einkaufen, falsch einsetzen und falsch messen. Die tatsächlichen Stückkosten pro Token sind im freien Fall - und werden weiter fallen.
Was als Nächstes kommt
Der Preiskrieg ist erst am Anfang. Xiaomis 99-Prozent-Senkung war nicht das Ende, sondern eine Eröffnung. Die Effizienzgewinne bei Inferenz-Systemen - Techniken wie Sliding Window Attention, verbesserte Cache-Mechanismen und optimierte MoE-Architekturen - senken die tatsächlichen Bereitstellungskosten kontinuierlich. Jeder Anbieter, der diese Gewinne nicht an die Kunden weitergibt, riskiert, Marktanteile an die zu verlieren, die es tun.
Für westliche Anbieter wie OpenAI, Anthropic und Google wird das zunehmend zum strategischen Dilemma: Ihre Modelle mögen bei den härtesten Aufgaben noch führen - aber wie lange rechtfertigt ein Leistungsvorsprung von fünf bis zehn Prozent einen Preisaufschlag von 3.000 Prozent?
🎯 Was das für die Praxis bedeutet
1. Token-Routing einführen: Nicht jede Aufgabe braucht ein Frontier-Modell. Wer einfache Zusammenfassungen, Übersetzungen oder Standardantworten über GPT-5.5 laufen lässt, zahlt das 30-Fache ohne Mehrwert. Intelligentes Routing nach Aufgabenkomplexität spart sofort.
2. Chinesische Alternativen evaluieren: DeepSeek V4 Pro, Xiaomi MiMo-V2.5 und Alibaba Qwen sind keine Spielzeuge - sie sind produktionsreife Modelle, die für die meisten Unternehmensanwendungen ausreichen. Datenschutz und Compliance prüfen, dann testen.
3. Verbrauchsmetriken hinterfragen: Token-Verbrauch ist kein Produktivitätsindikator. Wer seine Teams nach verbrauchten Tokens bewertet, schafft Fehlanreize. Stattdessen auf Ergebnismetriken umstellen - Kosten pro gelöstem Ticket, pro Code-Review, pro Kundenanfrage.
4. Budget-Governance aufbauen: Agentische Workflows brauchen Ausgabenlimits und Abbruchbedingungen. Ein einzelner Runaway-Agent kann in Minuten verbrennen, was ein Team in Wochen an Budget hat.