Perplexity hat auf der Computex 2026 in Taipeh eine Funktion vorgestellt, die den bisherigen Ansatz des Unternehmens grundlegend erweitert: Hybrid Agentic Inference für Perplexity Computer. Statt jede Anfrage in die Cloud zu schicken, teilt das System Aufgaben künftig automatisch zwischen einem lokalen Modell auf dem Gerät des Nutzers und Frontier-Modellen im Rechenzentrum auf.
Der Kern der Architektur: Eine kompakte Variante von Perplexitys Sonar-Modell läuft direkt auf der NPU (Neural Processing Unit) des Laptops - dem spezialisierten KI-Beschleuniger, den Intel, AMD und Apple mittlerweile in ihre Prozessoren einbauen. Dieses lokale Modell übernimmt die Erstverarbeitung von Anfragen, durchsucht lokale Dateien und greift auf eine Vektordatenbank zu, die ebenfalls auf dem Gerät liegt. Nur wenn die Aufgabe die Fähigkeiten des lokalen Modells übersteigt - etwa bei komplexem Reasoning oder Echtzeit-Webrecherche - delegiert das System automatisch an ein leistungsstärkeres Cloud-Modell.
Die Architektur im Detail
Perplexity beschreibt das System mit der Metapher eines Fluglotsen: Jede eingehende Aufgabe wird analysiert und einer von zwei Verarbeitungspfaden zugewiesen. Sensible Operationen - das Durchsuchen vertraulicher Dokumente, die Analyse von Finanzdaten oder der Zugriff auf den lokalen Kalender - bleiben vollständig auf dem Gerät. Rechercheschritte, die öffentliche Quellen und das aktuelle Web betreffen, werden an die Cloud weitergereicht.
Technisch stützt sich die lokale Komponente auf drei Säulen. Erstens: Perplexitys Embedding-Modell pplx-embed, das mit nativer INT8- und Binär-Quantisierung arbeitet und damit auf den begrenzten Speicher eines Laptops zugeschnitten ist. Zweitens: eine lokale Vektordatenbank - vergleichbar mit FAISS oder Qdrant - die den persönlichen Datenbestand des Nutzers indexiert. Drittens: das kompakte Sonar-Modell selbst, das auf NPUs mit 50 bis 85+ TOPS (Tera Operations Per Second) ausgelegt ist.
Die Vorstellung fand gemeinsam mit Intel statt. Als Referenzplattform dient der Intel Core Ultra Series 3, dessen integrierte NPU die nötige Rechenleistung für die lokale Inferenz liefert. Perplexity-CEO Aravind Srinivas demonstrierte das System live auf der Bühne.
Datenschutz als Architekturentscheidung
Was Perplexity hier baut, adressiert ein konkretes Problem: Wer bisher KI-Agenten für sensible Aufgaben einsetzen wollte, musste vertrauliche Daten an Cloud-Server senden. Das ist für viele Unternehmen - und zunehmend auch für Privatnutzer - ein Ausschlusskriterium. Durch die automatische Trennung auf Aufgabenebene entfällt dieses Entweder-oder. Der Nutzer muss nicht selbst entscheiden, welcher Modus aktiv sein soll; das System trifft diese Entscheidung pro Teilaufgabe.
Gleichzeitig reduziert der hybride Ansatz die Latenz für lokale Operationen drastisch. Statt auf einen Cloud-Roundtrip zu warten, antwortet das lokale Modell in Millisekunden - relevant für alle Szenarien, in denen Nutzer mit dem Agenten interaktiv arbeiten. Und da weniger Anfragen in der Cloud verarbeitet werden, sinken auch die Token-Kosten.
Einordnung und Kontext
Perplexity reagiert mit dieser Architektur auf einen breiten Branchentrend. Google hat mit Gemma 4 bereits aggressiv auf On-Device-Modelle gesetzt, und Googles AI Edge Gallery zeigt, wie weit lokale KI auf Smartphones bereits funktioniert. Apple treibt die NPU-Integration mit jedem Chip-Update voran. Auch der Perplexity Personal Computer selbst hat sich seit dem Launch im April stark weiterentwickelt.
Der entscheidende Unterschied zu reinen On-Device-Lösungen: Perplexity behält die Stärke seiner Cloud-basierten Echtzeit-Websuche bei. Es geht nicht darum, alles lokal zu machen, sondern darum, die richtige Aufgabe am richtigen Ort zu verarbeiten. Das Rollout der Hybrid-Inferenz ist für Juli 2026 angekündigt.
🎯 Was das für die Praxis bedeutet
1. Datenschutz ohne Komfortverlust: Wer bisher zwischen Cloud-Power und Datensouveränität wählen musste, bekommt mit hybrider Inferenz erstmals beides. Für Unternehmen mit sensiblen Daten - etwa im Gesundheits- oder Finanzsektor - wird der Einsatz von KI-Agenten damit erheblich realistischer.
2. NPU wird zum Pflichtkriterium: Beim nächsten Laptop-Kauf lohnt sich der Blick auf die NPU-Leistung. Ab 50 TOPS aufwärts (Intel Core Ultra, AMD Ryzen AI, Apple M-Serie) sind Geräte für lokale KI-Inferenz gerüstet. Wer heute einen Rechner ohne NPU kauft, schließt sich von dieser Entwicklung aus.
3. Token-Kosten sinken messbar: Da Routineaufgaben lokal verarbeitet werden, reduzieren sich die Cloud-API-Kosten. Für Power-User, die bisher hohe monatliche Ausgaben für KI-Dienste hatten, kann hybride Inferenz den effektiven Preis pro Aufgabe deutlich senken.




