Modelle & Agenten

Alignment Whack-a-Mole:
Finetuning lässt LLMs ganze Bücher wörtlich reproduzieren
GPT-4o, Gemini-2.5-Pro und DeepSeek-V3.1 geben nach simplem Finetuning bis zu 90% geschützter Bücher wörtlich wieder. Drei Anbieter, dasselbe Problem.

GLM-5V-Turbo: Zhipus Vision-Coding-Modell verwandelt Skizzen in Code
Das neue multimodale Modell versteht Screenshots, Designentwürfe und Videos — und generiert daraus direkt funktionale Frontends. Benchmark-Werte über Claude Opus 4.5.

Microsoft Researcher:
Critique und Council bringen Multi-Modell-Intelligenz ins Büro
Zwei KI-Modelle prüfen sich gegenseitig — Microsofts neues Researcher-System übertrifft alle Einzelmodell-Ansätze auf dem DRACO-Benchmark um 7 Punkte.

David Silver: Eine Milliarde Dollar für Superintelligenz ohne Sprachmodelle
DeepMind-Veteran gründet Ineffable Intelligence in London und holt die größte Seed-Runde der europäischen Startup-Geschichte. Sein Ansatz: Reinforcement Learning statt LLMs.

Software-Agenturen wie Anwaltskanzleien:
Das Kanzlei-Modell für die KI-Ära
Entwickler-Veteran Ran Aroussi schlägt ein radikal neues Organisationsmodell vor: Architekten steuern KI-Agenten-Flotten, die Firma liefert Marke und Infrastruktur — wie bei Kirkland & Ellis.

McKinsey: Das Organigramm stirbt — willkommen in der agentischen Organisation
Acht McKinsey-Berater beschreiben den größten Paradigmenwechsel seit der Industrialisierung: Kleine Teams steuern Dutzende KI-Agenten, klassische Hierarchien weichen agentischen Netzwerken.

Nadella: Software wird zur Datenbank — KI-Agenten übernehmen die Intelligenz
Im BG2-Podcast beschreibt Microsofts CEO eine Zukunft, in der Apps nur noch CRUD-Systeme sind. Die Geschäftslogik wandert komplett zum KI-Agenten.

Google-Paper: Die KI-Singularität ist eine Gesellschaft, kein Superhirn
Forscher von Google, UChicago und UCSD zeigen: Reasoning-Modelle wie DeepSeek-R1 entwickeln spontan interne Debatten. Die nächste Intelligenzexplosion wird sozial, nicht monolithisch.

Gemini 3.1 Flash Live:
Googles Echtzeit-KI versteht Emotionen beim Sprechen
Sub-Sekunden-Latenz und über 90 Sprachen — das neue Modell hört nicht nur zu sondern erkennt Frustration und Tonfall. Ab 0,5 Cent pro Minute im Developer-Preview.

Vibe Coding XR: Google macht Mixed-Reality-Apps per Sprachbefehl möglich
Ein Prompt, 60 Sekunden, eine fertige Android-XR-App: Googles Vibe Coding XR kombiniert Gemini mit dem Open-Source-Framework XR Blocks — und senkt die Schwelle für räumliches Computing radikal.

ARC-AGI-3: Der Benchmark, an dem jede KI scheitert
Menschen lösen ihn zu 100 Prozent, die besten KI-Modelle schaffen weniger als 1 Prozent. ARC-AGI-3 misst, was kein anderer Benchmark misst: echte Abstraktionsfähigkeit.

MolmoWeb: Der offene Web-Agent, der nur Screenshots braucht
Mit 8 Milliarden Parametern erreicht MolmoWeb 78 Prozent auf WebVoyager — mit Test-Time Scaling sogar 95 Prozent. Allen AI veröffentlicht Modell, Dataset und Training komplett offen.

AutoGaze: 100-mal weniger Tokens für Videoanalyse — bei besserer Qualität
Das Modul von UC Berkeley und NVIDIA entfernt redundante Video-Patches, bevor sie den Vision Transformer erreichen. Ergebnis: 19-facher Speedup und erstmals 4K-Videos mit 1.000 Frames in MLLMs.

HeroUI v3: Kompletter Neustart mit React Native und KI-Agenten-Schnittstelle
75 Web-Komponenten, 37 Native-Komponenten, Tailwind CSS v4, CSS-only Animationen und ein MCP-Server für KI-Agenten — HeroUI liefert das umfassendste Update seiner Geschichte.

Omma: 3D-Szenen, Websites und Apps per Textbeschreibung bauen
Die neue Plattform orchestriert mehrere KI-Agenten parallel — Code, Bilder, 3D-Modelle und Daten gleichzeitig. Was Stunden dauerte, soll in Sekunden erledigt sein.

Anthropic zeigt, wie Claude stundenlang autonom programmiert
Drei Agenten — Planer, Generator, Evaluator — arbeiten in Sprints an vollständigen Full-Stack-Apps. Anthropic teilt die Engineering-Details des Harness-Designs, das Claude zum autonomen Software-Entwickler macht.

TurboQuant: Google komprimiert KI-Speicher sechsfach — bei null Genauigkeitsverlust
Der neue Algorithmus reduziert den Key-Value-Cache großer Sprachmodelle um das Sechsfache und beschleunigt die Verarbeitung auf H100-GPUs um das Achtfache. Ohne jedes Nachtraining.

Google NewFront: Gemini übernimmt die Werbeplattform
Google integriert Gemini-Modelle in die gesamte Marketing Platform — von proaktiver Mediakuratierung bis zum Kampagnen-Management per Prompt. Eine Circana-Studie meldet 76 Prozent mehr Rendite.

Claude übernimmt den Desktop:
Computer Use macht OpenClaw für viele überflüssig
Anthropics KI steuert jetzt Browser, Maus und Tastatur direkt — und lässt sich per Handy beauftragen. Die Kombination aus Dispatch und Computer Use ersetzt externe Agenten-Frameworks.

Gamma launcht AI-Native Templates:
Präsentationen per Prompt umbauen
Mit dem neuen Create-from-this-Button verwandelt Gamma bestehende Decks per Textbefehl in neue Versionen — inklusive 100+ professioneller Vorlagen.