Annotation
Annotation — auch Data Labeling genannt — ist die oft unsichtbare Arbeit, die überwachtes Lernen überhaupt erst ermöglicht. Menschen versehen Rohdaten mit strukturierten Informationen, damit ein Modell daraus lernen kann.
Die Aufgaben reichen vom Einfachen zum Komplexen. Für Bilderkennung: Bounding Boxes um Objekte zeichnen, Pixel genau segmentieren, Gesichter mit Emotionen taggen. Für Textverständnis: Entitäten markieren, Sentiment zuordnen, Beziehungen zwischen Wörtern annotieren. Für autonomes Fahren: In jedem Frame eines Videos jedes Fahrzeug, jeden Fußgänger, jede Spurmarkierung identifizieren.
Der Aufwand ist kolossal. Tesla sammelt Millionen Stunden Fahrdaten — die Annotation jedes einzelnen Frames erfordert menschliche Arbeit. Das hat eine globale Industrie hervorgebracht. Unternehmen wie Scale AI (2024 mit 14 Milliarden Dollar bewertet), Labelbox und Appen beschäftigen Hunderttausende Annotatoren, viele davon in Kenia, Indien und auf den Philippinen.
Die Arbeitsbedingungen in dieser Branche stehen unter Kritik. Time Magazine berichtete 2023, dass Annotatoren für OpenAI in Kenia weniger als 2 Dollar pro Stunde erhielten — für die Sichtung verstörenden Materials, das für die Sicherheitsfilter von ChatGPT benötigt wurde.
Ein Ausweg könnte die Synthese von annotierten Daten durch KI selbst sein (Synthetic Data) oder Self-Supervised Learning, das ohne Labels auskommt.