In einer kleinen Fabrik im indischen Gujarat filmt ein Schneider seine Hände bei der Arbeit. Die Kamera sitzt auf seinem Kopf. Er näht, faltet, misst Stoff ab - Handgriffe, die er seit zwanzig Jahren beherrscht. Für seine Aufnahmen bekommt er umgerechnet zwölf Cent pro Stunde. Das Filmmaterial wird an Robotik-Firmen verkauft, die damit ihren Maschinen beibringen, was der Schneider kann. Wenn die Maschinen es gelernt haben, wird man den Schneider nicht mehr brauchen.
Was hier passiert, ist kein Einzelfall. Es ist eine globale Industrie - und sie wächst mit einer Geschwindigkeit, die selbst Insider überrascht. 2026 könnte als das Jahr in die Geschichte eingehen, in dem die Menschheit am intensivsten physische Daten für KI-Systeme gesammelt hat. Doch dieses Zeitalter könnte erstaunlich kurz sein.
Die neue Datenfabrik
JD.com, einer der größten Onlinehändler Chinas, hat in Suqian (Provinz Jiangsu) die weltweit erste "Embodied AI Data Collection Community" gestartet. Die Dimensionen sind schwer zu greifen: Über 100.000 Einwohner der Stadt sollen mit einem proprietären Aufnahmegerät namens JoyEgoCam ihren Alltag filmen - beim Kochen, Putzen, Einkaufen, in Restaurants und Krankenhäusern. Dazu kommen bis zu 500.000 externe Mitwirkende und über 100.000 JD-Mitarbeiter. Das Ziel: zehn Millionen Stunden hochwertige Videodaten in zwei Jahren.
Die Daten sind nicht für Chatbots bestimmt. Sie füttern sogenannte Embodied-AI-Modelle - also KI-Systeme, die in der physischen Welt agieren sollen. Roboter, die Pakete sortieren, Regale einräumen oder chirurgische Instrumente reichen. Für solche Aufgaben reichen Texte und Bilder aus dem Internet nicht. Die Maschinen brauchen etwas, das bisher nur Menschen liefern können: die exakte Perspektive eines handelnden Körpers im Raum.
Indien: Der Weltmarkt für billige Körperdaten
Während JD.com ein staatlich gefördertes Großprojekt aufzieht, hat sich in Indien ein weniger organisierter, aber ebenso umfangreicher Markt entwickelt. Arbeiter in Textilfabriken, auf Straßenmärkten und in Küchen tragen Kopfkameras, die jeden Handgriff aufzeichnen. Straßenverkäufer werden mit Tracking-Tools ausgestattet, die ihre Bewegungen und ihre Gemüseauswahl dokumentieren. Eine CNBC-Reportage zeigt Fabrikarbeiter, die bereitwillig die Daten liefern, mit denen ihre eigenen Jobs wegautomatisiert werden.
Die Bezahlung variiert zwischen zwölf Cent und drei bis vier Dollar pro Stunde. Viele der Arbeiter wissen nicht genau, wofür ihre Aufnahmen verwendet werden. Die Ironie ist bitter: Je besser die Daten, desto schneller wird der Mensch überflüssig, der sie liefert.
HumanNet: Eine Million Stunden menschliches Handeln
Parallel zur physischen Datensammlung laufen akademische Großprojekte. Peking Universitys DAGroup hat im Mai 2026 den Datensatz HumanNet veröffentlicht: eine Million Stunden menschenzentrierter Videos aus dem Internet, kuratiert für Embodied AI. Der Datensatz enthält über 150.000 verschiedene Objekte und 720.000 Aufgabeninstanzen - Ego- und Exo-Perspektiven, angereichert mit 3D-Handhaltungen und Bewegungsbeschreibungen.
Die zentrale Erkenntnis der Forscher: Bereits 1.000 Stunden HumanNet-Daten ersetzen 100 Stunden teurer Roboter-Teleoperation. Ein Faktor von zehn zu eins. Das macht klar, warum die Branche so aggressiv auf menschliche Videodaten setzt - sie sind billiger, vielfältiger und in praktisch unbegrenzter Menge verfügbar.
Meta: Wenn der Arbeitgeber zum Datensammler wird
Die Datensammlung beschränkt sich nicht auf Billiglohnländer und akademische Projekte. Meta hat einen anderen Weg gewählt - und dabei die eigene Belegschaft zum Trainingsdatensatz gemacht. In einem geleakten All-Hands-Meeting vom 30. April soll CEO Mark Zuckerberg seinen Mitarbeitern erklärt haben, dass er KI an ihnen trainiere. Kurz darauf kündigte das Unternehmen Massenentlassungen an.
Das Programm heißt intern Model Capability Initiative (MCI). Die installierte Software trackt Tastatureingaben, Mausbewegungen, Klicks und erstellt Screenshots - alles, um KI-Agenten beizubringen, wie Menschen Computer bedienen. Die Mitarbeiter nennen es die "Employee Data Extraction Factory". Über 1.500 Beschäftigte haben eine Petition unterschrieben, Protest-Flyer tauchten in Meeting-Räumen und Badezimmern auf, in Großbritannien startete eine Gewerkschaftsgründung. CTO Andrew Bosworth stellte laut Berichten klar: Auf Firmengeräten gibt es kein Opt-out.
Das Muster ist dasselbe wie bei den indischen Fabrikarbeitern, nur in einer anderen Gehaltsklasse: Erst sammelt das Unternehmen die Daten seiner Angestellten, dann entlässt es sie. Über 8.000 Meta-Mitarbeiter verloren ihre Stelle, weitere 7.000 wurden in KI-Rollen umgeschichtet.
Warum dieses Zeitalter flüchtig sein könnte
Die Dimension der aktuellen Datensammelwut ist beispiellos. Doch es mehren sich die Anzeichen, dass diese Phase historisch kurz sein wird - vielleicht nur wenige Jahre. Drei Entwicklungen deuten darauf hin:
Erstens: Synthetische Daten werden besser. Simulation-to-Real-Transfer - also das Training von Robotern in virtuellen Umgebungen mit anschließender Übertragung auf reale Hardware - funktioniert bereits. Figure trainiert seine humanoiden Roboter per Reinforcement Learning in der Simulation und überträgt das Ergebnis ohne Nachkalibrierung auf die echte Maschine. Je besser die Simulationen werden, desto weniger braucht man echte menschliche Daten.
Zweitens: Datenflywheels beschleunigen sich selbst. Sobald genug Roboter im Einsatz sind, erzeugen sie ihre eigenen Betriebsdaten. Figures Flotte von über 350 Robotern sammelt bereits im Normalbetrieb Daten, die in das nächste Modellupdate fließen. Das Schwungrad dreht sich schneller, je mehr Einheiten laufen - ein Prinzip, das auch die autonomen 8-Stunden-Schichten der Helix-02-Roboter antreibt.
Drittens: Selbstverbesserung. Was bei Sprachmodellen bereits funktioniert - rekursive Optimierung, bei der KI ihren eigenen Code und ihre eigene Architektur verbessert - wird auch für physische KI kommen. Sobald ein Embodied-AI-Modell gut genug ist, um neue Trainingsszenarien selbst zu entwerfen, braucht es keine Kameraarbeiter mehr.
Der blinde Fleck
Was in Suqian, Mumbai und Menlo Park gerade passiert, hat einen gemeinsamen Nenner: Menschen liefern Daten, die sie selbst ersetzen werden. Die Arbeiter wissen es teilweise, die Meta-Ingenieure protestieren dagegen - aber aufhalten kann es keiner. Die Nachfrage nach physischen Trainingsdaten ist aktuell grenzenlos, weil die Robotik-Industrie explodiert und jeder Hersteller so viel reale Weltdaten wie möglich aufsaugen will, bevor die Konkurrenz es tut.
Doch genau diese Dringlichkeit ist auch der Beleg dafür, wie flüchtig die Phase ist. Wenn zehn Millionen Stunden Video reichen, um die physische Welt für Maschinen verständlich zu machen, dann ist das Sammeln irgendwann abgeschlossen. Und dann stehen die Schneider in Gujarat und die Software-Ingenieure in Menlo Park vor derselben Frage: Was kommt danach?
🎯 Was das für die Praxis bedeutet
1. Embodied AI verändert den Datenbegriff: Für die nächste Generation von KI-Systemen zählen nicht mehr Texte und Bilder, sondern räumliche, taktile und körperbezogene Daten. Unternehmen mit physischen Prozessen sitzen auf potenziellem Trainingsgold.
2. Zeitfenster erkennen: Die aktuelle Datensammelphase ist vermutlich kurz. Wer jetzt Partnerschaften mit Robotik-Firmen eingeht, kann seine Prozessdaten zu einem Zeitpunkt einbringen, an dem sie noch maximalen Wert haben.
3. Mitarbeiter informieren: Metas MCI-Programm zeigt, dass Arbeitsplatzdaten zum KI-Training ein Arbeitsrechtthema werden. Unternehmen sollten frühzeitig transparente Richtlinien entwickeln, bevor Proteste erzwingen, was Kommunikation hätte verhindern können.
4. Automatisierung realistisch einschätzen: Die Kombination aus billigen Menschendaten, akademischen Megadatensätzen und Sim-to-Real-Transfer beschleunigt die Robotik schneller als prognostiziert. Die Arbeitsmarktszenarien für 2030 verdienen eine Neubewertung.