Embodied AI
Embodied AI beschreibt KI-Systeme, die in einem physischen Körper (Roboter, Drohne, Fahrzeug) verankert sind und mit der realen Welt interagieren — im Gegensatz zu disembodied AI (Chatbots, Bildgeneratoren), die nur in der digitalen Welt existiert.
Die These: Echte Intelligenz erfordert einen Körper. Ein System, das nur Text liest, kann „Schwerkraft" als Wort kennen, aber nie erfahren, wie es sich anfühlt, etwas fallen zu lassen. Rodney Brooks (MIT) argumentierte bereits in den 1990ern: „Intelligence is determined by the dynamics of interaction with the environment."
Die Herausforderungen von Embodied AI sind enorm. Sensorfusion: Informationen von Kameras, LiDAR, Tastsensoren, Beschleunigungsmessern und Mikrofonen müssen in Echtzeit integriert werden. Grounding: Das System muss abstrakte Konzepte (z.B. „bringe mir die rote Tasse") auf konkrete physische Objekte in einer spezifischen Umgebung abbilden. Robustheit: Die reale Welt ist unvorhersehbar — jede Oberfläche, jedes Objekt, jede Lichtbedingung ist anders.
Fortschritte zeigen sich: Google RT-2 (2023) nutzt ein multimodales Modell, um Roboteranweisungen in natürlicher Sprache zu verstehen und auszuführen. Figure AI und 1X Technologies bauen humanoide Roboter, die von großen Modellen gesteuert werden. Teslas Optimus-Roboter kombiniert Computer Vision mit motorischer Steuerung.
Die Verbindung zu LLMs eröffnet neue Möglichkeiten: SayCan (Google) nutzt ein LLM für Planung und ein Affordance-Modell für physisch realisierbares Handeln.