Ein Roboterarm greift nach einem Holzapfel und legt ihn auf das Spielfeld von „Erster Obstgarten" — dem Kinderspiel-Klassiker. Was harmlos aussieht, demonstriert ein Prinzip, das die KI-Industrie 2026 grundlegend verändern dürfte: Nicht ein einzelnes Modell macht die Arbeit, sondern mehrere spezialisierte Modelle arbeiten zusammen.
Gehirn und Hände — getrennte Modelle, ein Ziel
Googles KI-Entwickler haben ein Projekt veröffentlicht, bei dem Gemini 3 Flash als „Gehirn" fungiert und ein Vision-Language-Action-Modell (VLA) als „Hände". Gemini übernimmt das Denken: Es kennt die Spielregeln, verfolgt den Spielstand und entscheidet, welcher Zug als nächstes sinnvoll ist. Das VLA-Modell übernimmt die Ausführung: Es erkennt die Spielsteine, berechnet Greifbewegungen und platziert die Teile physisch auf dem Brett.
Das Muster dahinter: Multi-Modell-Architektur
Das Brettspiel-Experiment ist mehr als eine technische Spielerei. Es illustriert einen Architekturansatz, der sich derzeit überall durchsetzt: Reasoning-Modelle (die denken können) werden mit Action-Modellen (die handeln können) kombiniert.
Ein Beispiel dafür haben wir bereits berichtet: Das Startup Standard Intelligence hat mit FDM-1 ein „Computer Action Model" entwickelt, das aus 11 Millionen Stunden Video gelernt hat, digitale Oberflächen zu bedienen. Die Pointe: FDM-1 braucht ein Reasoning-Modell wie GPT oder Claude, das ihm sagt, was zu tun ist. Das Action Model allein plant nicht — es führt aus. Umgekehrt kann ein Reasoning-Modell zwar denken, aber ohne Action Model weder klicken noch greifen.
Warum das jetzt relevant wird
Googles eigener AI Agent Trends Report 2026 bringt es auf den Punkt: Das Jahr wird nicht dadurch definiert, wer das beste einzelne Modell hat, sondern wer Modelle am besten orchestriert. Auch das Model Context Protocol (MCP) — häufig als „USB-C für KI" bezeichnet — zielt genau darauf ab: eine standardisierte Schnittstelle, über die verschiedene Modelle und Werkzeuge wie Steckmodule zusammenarbeiten.
Auch Produkte wie Perplexity Computer setzen auf denselben Ansatz: 19 verschiedene KI-Modelle werden gleichzeitig orchestriert, um komplexe Wissensarbeit autonom zu erledigen.
🎯 Was das für die Praxis bedeutet
1. Wer KI-Agenten für reale Geschäftsprozesse plant, sollte nicht auf ein einzelnes Alleskönner-Modell warten, sondern Multi-Modell-Architekturen evaluieren — ein Reasoning-Modell für die Logik, ein Action-Modell für die Ausführung.
2. Der Trend zur Orchestrierung macht standardisierte Schnittstellen wie MCP geschäftskritisch: Wer seine Systeme jetzt auf offene Protokolle ausrichtet, kann Modelle später flexibel austauschen.
3. Das Brettspiel-Experiment zeigt: KI-Robotik wird nicht durch ein einzelnes Supermodell gelöst, sondern durch das Zusammenspiel von physischem Verständnis (VLA) und abstraktem Denken (LLM) — ein Muster, das auf Logistik, Fertigung und Service direkt übertragbar ist.