Was passiert, wenn ein KI-Agent gleichzeitig Geländedaten analysiert, einen Grundriss generiert, ein 3D-Modell baut und photorealistische Renderings erstellt - und das alles lokal auf einem einzigen Rechner? Nvidia hat genau das auf der Computex in Taipei vorgeführt. Die Demo zeigt nicht nur neue Hardware, sondern einen konkreten Workflow, der verständlich macht, wie KI-Agenten in der Praxis funktionieren.

Die Architektur des Agenten

Im Zentrum steht Hermes, ein Open-Source-Agent von Nous Research. Das Besondere: Hermes besteht nicht aus einem einzelnen KI-Modell, sondern aus mehreren spezialisierten Komponenten, die zusammenarbeiten.

Der Agent folgt einem klassischen Schleifen-Prinzip: Beobachten, Nachdenken, Handeln. Konkret heißt das:

  • Ein Planner analysiert die Aufgabe und zerlegt sie in Teilschritte
  • Ein Tool-Caller entscheidet, welches Werkzeug für den nächsten Schritt gebraucht wird
  • Ein Summarizer fasst die Ergebnisse zusammen und prüft, ob das Ziel erreicht ist

Jede dieser Rollen kann von einem eigenen Sprachmodell übernommen werden. In der Demo nutzt Hermes lokale Modelle auf dem RTX Spark für die Tool-Steuerung und Claude Sonnet als Reasoning-Modell für komplexere Entscheidungen. Der entscheidende Punkt: Der Agent läuft über OpenShell, eine neue Nvidia-Laufzeitumgebung, die KI-Agenten sicher in Windows einbettet - mit Microsofts Sicherheitsmechanismen, aber ohne Cloud-Abhängigkeit.

Die Demo: Ein Haus entwerfen per Sprache

Jensen Huang demonstrierte den Workflow anhand eines konkreten Architekturprojekts. Die Aufgabe: Ein modernes Vier-Schlafzimmer-Haus mit Meerblick auf einem Küstengrundstück entwerfen.

Schritt 1 - Geländeanalyse: Der Agent erhält ein Luftbild des Grundstücks und analysiert automatisch Höhenlinien, Koordinaten und Abstände. In Rhino, einer professionellen Architektur-Software, erstellt er daraus einen Lageplan mit allen Constraints - Hangneigung, Bauvorschriften, optimale Ausrichtung.

Schritt 2 - Grundriss: Basierend auf der Analyse generiert der Agent einen kompletten Grundriss mit beschrifteten Räumen: Eingangsfoyer, offener Wohnbereich, Küche, Schlafzimmer. Der Nutzer kann in natürlicher Sprache Änderungen anfordern ("Mach das Wohnzimmer größer", "Verschiebe den Pool").

Schritt 3 - 3D-Modell: Der Agent überträgt den Grundriss in ein dreidimensionales Modell - mit 24 Türen, 38 Fenstern und einem Pool im Innenhof. Er validiert automatisch Geometrie, Raumzirkulation und Öffnungen und meldet Probleme, bevor der Nutzer danach fragt.

Schritt 4 - Rendering: Über ComfyUI, ein KI-Bildgenerierungstool, erzeugt der Agent photorealistische Renderings des Gebäudes - außen mit Meerblick und Bergkulisse, innen mit Holzfußböden, Möblierung und Beleuchtung.

Was hier technisch passiert

Der Workflow zeigt drei Dinge, die bisher so nicht möglich waren:

Multi-Tool-Orchestrierung: Ein einzelner Agent bedient drei völlig unterschiedliche Anwendungen - Rhino für parametrisches Design, Blender für 3D-Modellierung und ComfyUI für generative Bilder. Das klingt trivial, ist aber technisch anspruchsvoll: Jedes Tool hat eine eigene API, eigene Datenformate und eigene Logik. Der Agent muss Ergebnisse zwischen den Tools übersetzen und den Workflow über alle drei hinweg koordinieren.

Lokale Ausführung: Alles läuft auf dem RTX Spark - einem Rechner mit bis zu 1 Petaflop KI-Leistung und 128 GB Unified Memory. Kein Cloud-Upload von Entwürfen, keine Latenz, keine Abhängigkeit von Internetverbindungen. Für Architekturbüros, die mit vertraulichen Kundendaten arbeiten, ist das ein relevanter Unterschied.

Iterationsgeschwindigkeit: Was in einem traditionellen Workflow Tage bis Wochen dauert - Gelände analysieren, Grundriss zeichnen, 3D-Modell bauen, rendern, mit dem Kunden besprechen, überarbeiten - passiert hier in Minuten. Der Agent validiert jeden Schritt automatisch und meldet Probleme, bevor sie sich durch den gesamten Entwurf ziehen.

Hermes als Open Source

Hermes ist kein geschlossenes Nvidia-Produkt, sondern ein Open-Source-Projekt von Nous Research. Die Agenten-Architektur ist modular: Entwickler können die einzelnen Rollen (Planner, Tool-Caller, Summarizer) mit beliebigen Sprachmodellen besetzen, eigene Tools anbinden und den Workflow an ihre Bedürfnisse anpassen. Das unterscheidet Hermes von geschlossenen Agenten-Systemen wie Anthropics Computer Use oder OpenAIs Operator, die an bestimmte Modelle gebunden sind.

In Verbindung mit dem ebenfalls vorgestellten Isaac GR00T-Referenzroboter wird Nvidias Strategie sichtbar: Die gesamte Wertschöpfungskette von KI abdecken - vom Rechenzentrum über den PC bis in den Roboter - und auf jeder Ebene die offenen Werkzeuge bereitstellen, die das Ökosystem wachsen lassen.

🎯 Was das für die Praxis bedeutet

1. Architektur und Ingenieurwesen: Die Demo ist kein Zukunftsszenario, sondern nutzt existierende Software (Rhino, Blender, ComfyUI). Architekturbüros, die bereits mit diesen Tools arbeiten, können Hermes als Orchestrierungsschicht testen, sobald RTX Spark verfügbar ist.

2. Lokale Agenten als Paradigma: Die Kombination aus leistungsfähiger lokaler Hardware (RTX Spark) und sicherer Laufzeitumgebung (OpenShell) macht KI-Agenten erstmals für datensensible Branchen attraktiv - von Architektur über Medizin bis Recht.

3. Open Source als strategischer Vorteil: Wer eigene Agenten-Workflows aufbauen will, sollte Hermes und die OpenShell-Runtime beobachten. Die modulare Architektur erlaubt es, mit kleinen Experimenten zu starten, ohne sich an einen Anbieter zu binden.

Dieser Artikel enthält eingebettete Inhalte Dritter (z. B. Videos, Social-Media-Beiträge). kiwoche.com berichtet über diese Inhalte, macht sie sich jedoch nicht zu eigen. Die Rechte und die Verantwortung liegen beim jeweiligen Urheber bzw. Plattformbetreiber.

📰 Quellen
NVIDIA Blog ↗ NVIDIA RTX AI Garage ↗ Nous Research Hermes ↗ Nous Research auf X ↗ Nous Research auf X ↗
Teilen: