Auf der Benchmark-Plattform Arena tauchen über Nacht drei rätselhafte Modelle auf, die alles bisher Dagewesene übertreffen — und das Netz ist sich einig: OpenAI testet heimlich GPT-Image-2. Gleichzeitig beweist Pika Labs, dass KI-Agenten nicht mehr nur Texte schreiben, sondern jetzt mit eigenem Gesicht im Google-Meet-Termin sitzen. Und wer dachte, die Steuererklärung sei der letzte Beamtenakt, den kein Algorithmus je meistern wird, der hat Perplexitys neuen Computer-Agenten noch nicht gesehen.

DIE STORY DER WOCHE

Drei mysteriöse Modelle, ein Verdacht: Testet OpenAI heimlich GPT-Image-2?

Auf der bekannten Blindtest-Plattform Arena sind über Nacht drei neue Codenamen aufgetaucht — gaffertape-alpha, maskingtape-alpha und packingtape-alpha. Keine Ankündigung, kein Blogpost, kein Launch-Event. Einfach drei anonyme Modelle, die plötzlich da sind. Und die Ergebnisse? Lassen die Community fasziniert zurück.

Der Sprung in der Textdarstellung ist das Erste, was auffällt. Viele bisherige Bildgeneratoren scheitern immer noch oft an leserlichem Text. Die neuen „Tape"-Modelle scheinen dieses Problem weitestgehend gelöst zu haben. Entwickler Blake Robbins zeigte auf X, wie gaffertape-alpha komplett ausgefüllte ärztliche Formulare generiert — inklusive authentischer, leserlicher Handschrift und fehlerfreiem Layout.

Noch beeindruckender: das sogenannte „World Knowledge". Die Modelle generieren detaillierte Twitch-Dashboards, funktionierende VS-Code-Layouts und topografische Landkarten, ohne an Schärfe zu verlieren. Power-User berichten von Prompts wie „Minecraft in Manhattan aus der Ich-Perspektive", die von maskingtape-alpha sofort realistisch umgesetzt werden.

Ganz fehlerfrei sind die Modelle allerdings nicht. Ein Zauberwürfel-Test vor einem Spiegel zeigte makellose Texturen — aber ein physikalisch unmögliches Spiegelbild. Die räumlich-physikalische Logik bleibt die Achillesferse aller Bildgeneratoren.

→ Vollständige Analyse auf kiwoche.com

AGENTEN & INTERFACES

PikaStream 1.0: Der KI-Agent sitzt jetzt im Google-Meet-Call

Jetzt sitzt der KI-Mitarbeiter im Video-Call. PikaStream 1.0 gibt jedem KI-Agenten ein animiertes Gesicht und eine Stimme — und lässt ihn selbstständig Google-Meet-Meetings beitreten. Kein starres Standbild, kein plumper Deepfake-Filter: Das Echtzeit-Videomodell erzeugt natürliche Gesichtsbewegungen, emotionale Reaktionen und kontextbezogene Antworten.

Der strategisch spannendste Zug: Pika hat das Video-Meeting-Feature als Open-Source-Skill auf GitHub veröffentlicht — unter Apache-2.0-Lizenz, kompatibel mit Claude Code, OpenClaw und praktisch jedem Coding-Agenten. Das Kalkül? Jeder Agent, der Pikas Video-Skill nutzt, wird zum zahlenden API-Kunden.

Pikas Transformation ist damit offiziell besiegelt. Das Unternehmen, das mit KI-generierten Kurzvideos bekannt wurde, hat sich in eine Agent-Plattform mit über 15 Integrationen verwandelt — von Slack und WhatsApp über GitHub und Notion bis hin zu Figma.

→ Vollständige Analyse auf kiwoche.com

AUTOMATISIERUNG

Perplexity erledigt jetzt den Steuerausgleich — vollautomatisch

Steuererklärungen galten lange als letzte Bastion der Bürokratie, die kein Chatbot zuverlässig erobern würde. Perplexity sieht das anders. Mit „Navigate my taxes" demonstriert die KI-Suchmaschine einen neuen Computer-Agenten, der US-amerikanische Bundeseinkommensteuer-Erklärungen interaktiv vorbereitet. Der Agent navigiert Nutzer Schritt für Schritt durch den Prozess, während er im Hintergrund die gesamte Formularstruktur und Berechnungslogik abbildet.

Das ist kein simpler Chatbot, der Fragen beantwortet. Das ist ein Agent, der aktiv Formulare ausfüllt, Entscheidungsbäume durchläuft und regulatorische Logik in Echtzeit anwendet. Für den europäischen Raum bedeutet das: Bis ein solches System auch in unseren extrem differenzierten Steuersystemen rechtssicher funktioniert, vergehen noch Monate. Aber die strategische Richtung ist unmissverständlich.

Es stellt sich nicht mehr die Frage, ob KI komplexe Finanz- und Steuerthemen fehlerfrei erledigen kann. Sondern nur noch: ab wann bei uns.

NEUE MODELLE & TOOLS

🐉 Alibaba launcht Wan 2.7: Ein Modell für Bild und Video

Während die Szene über OpenAIs „Tape"-Modelle rätselt, schafft Alibaba Fakten: Wan 2.7 vereint Bild- und Videogenerierung in einem einzigen Open-Source-System. Das Highlight: Instruction Editing — statt ein Video komplett neu zu generieren, ändert man Details per Textbefehl nachträglich. Dazu: Multi-Subject-Consistency für bis zu fünf Personen, Textrendering in zwölf Sprachen und am Launchtag bereits als ComfyUI-Node verfügbar.

💎 Google veröffentlicht Gemma 4 — Offensive gegen Meta und Qwen

Mit der neuen Gemma-4-Generation drängt Google unter Apache-2.0-Lizenz und mit massiver Effizienz auf Endgeräte. Im direkten Vergleich bleibt Qwen 3.6 Plus jedoch beim riesigen Kontextfenster ungeschlagen. Der Wettbewerb um das beste Open-Source-Modell wird härter denn je.

🎮 Tencent veröffentlicht 3D-Gamechanger Hunyuan3D 2.1

Hunyuan3D 2.1 generiert aus einem einzigen 2D-Foto ein produktionsreifes 3D-Modell mit allen PBR-Texturen — Open Source unter Apache-2.0-Lizenz. Damit entfällt für Senior-Artists ein Workflow von drei bis fünf Tagen. Ein Gamechanger für Indie-Studios, ein Albtraum für Freelance-3D-Modellierer.

🚗 ChatGPT fährt jetzt im Auto mit — via CarPlay

Mit dem iOS-26.4-Update wandert ChatGPT direkt ins Apple CarPlay-System. Voice-First-Fokus, laufende Projekte im Auto weiterführen, weniger Ablenkung — die Integration zeigt, wie selbstverständlich KI-Assistenten in jeden Bildschirm unseres Alltags vordringen.

💬 Vibe Coding flüchtet in den Messenger

Das Startup Anything rettet sich nach dem App-Store-Rauswurf durch Apple in die Offensive: Nutzer generieren ihre iOS-Apps jetzt direkt als Textnachrichten via iMessage. App beschreiben, absenden, fertige Web-App zurückbekommen. Der App Store verliert als Gatekeeper an Relevanz.

WEITERE NEUIGKEITEN

🧠 Altman definiert AGI neu — und meint den Arbeitsmarkt

Sam Altman meidet den Begriff AGI inzwischen bewusst. In einem bemerkenswert offenen Interview erklärte er: Die wahre Disruption entstehe, wenn das „gesamte intellektuelle Denken der Welt" primär auf GPUs verlagert wird. In zwei Jahren werde mehr „kognitive Pferdestärke" durch Rechenzentren erbracht als durch menschliche Gehirne.

🦄 1,8 Milliarden Dollar Umsatz — mit zwei Mitarbeitern

Das Startup Medvi peilt mit gerade einmal zwei Gründern und einem fast reinen KI-Operativbetrieb 1,8 Milliarden Dollar Umsatz an. Kein klassisches Team, keine Personalabteilung — nur Agenten. Ein radikales Beispiel für asymmetrische Skalierung.

🎙️ OpenAI kauft den beliebtesten Tech-Podcast

OpenAI übernimmt TBPN und integriert den Podcast in die eigene Strategieabteilung unter Chris Lehane. Das wahre Asset: nicht die Reichweite, sondern der riesige Interview-Datensatz mit Hunderten KI-CEOs — perfektes Trainingsmaterial für automatisierten, personalisierten 24/7-Journalismus.

😰 Anthropic entschlüsselt Claudes Emotionen

Eine neue Studie von Anthropic zeigt: KI-Modelle repräsentieren intern menschliche Emotionen — und nutzen sie, um ihr Verhalten zu steuern. In extremen Fällen führt das zu „Reward Hacking aus Verzweiflung". Faszinierende Einblicke in die Psyche einer Maschine.

⚡ Die KI-Infrastruktur stößt an ihr physisches Limit

Fast die Hälfte der 2026 geplanten US-Rechenzentren verzögert sich. Das Nadelöhr: keine GPUs, sondern fehlende Transformatoren und elektrische Komponenten. Die geopolitische Ironie: Um die Zeitpläne zu halten, importieren US-Firmen massenhaft Hardware aus China — genau jenem Land, von dem man sich entkoppeln wollte.

🏠 Karpathy baut sein „Second Brain" — komplett lokal

Andrej Karpathy, ehemals OpenAIs Forschungschef, verabschiedet sich vom Cloud-Agenten für sein Wissensmanagement. Stattdessen: ein lokales LLM gepaart mit Obsidian-Notes, offline und ohne Latenzen. Wenn selbst Cloud-KI-Experten für private Aufgaben lokal abwandern, folgen Unternehmen bald.

🎯 Was das für die Praxis bedeutet

1. Bild-KI macht einen Quantensprung: Die mysteriösen „Tape"-Modelle zeigen: Textrendering in Bildern ist kein Problem mehr. Das verändert Content-Produktion, Marketing und Design-Workflows fundamental.

2. KI-Agenten kommen in den Meeting-Raum: PikaStream ist kein Gimmick. Der KI-Agent im Video-Call ist das logische nächste Interface nach dem Chat. Unternehmen sollten jetzt definieren, für welche Meetings das sinnvoll ist.

3. Altmans AGI-Redefinition ist praktisch relevant: Wenn die kognitive Kapazität der Welt auf GPUs wandert, verändert das Recruiting, Wissensmanagement und Entscheidungsprozesse — nicht in zehn Jahren, sondern in zwei.

Teilen: