Crowdsourcing
Crowdsourcing — die Auslagerung von Aufgaben an eine große Menge (meist unbekannter) Personen über das Internet — ist in der KI unverzichtbar für die Erzeugung von Trainingsdaten und die Evaluation von Modellen.
Amazon Mechanical Turk (MTurk), benannt nach dem berühmten Schach-Automaten des 18. Jahrhunderts (der einen versteckten Menschen enthielt), ist die bekannteste Plattform. HITs (Human Intelligence Tasks) können von Arbeitern weltweit erledigt werden: Bilder labeln, Texte bewerten, Audio transkribieren, Umfragen ausfüllen. Alternativen wie Prolific, Appen und Scale AI spezialisieren sich auf höherwertige Aufgaben.
Für ML sind Crowdsourcing-Aufgaben vielfältig. Annotation: Bounding Boxes zeichnen, Sentiment taggen, Entities markieren. Evaluation: Modellausgaben auf Qualität, Korrektheit und Bias bewerten. Data Collection: Gesprochene Sprache aufnehmen, handschriftliche Texte scannen, spezifische Bilder fotografieren.
RLHF — das Verfahren, mit dem ChatGPT trainiert wurde — ist im Kern Crowdsourcing: Menschliche Bewerter ranken mehrere Modellantworten nach Qualität, und das Modell lernt aus diesen Präferenzen.
Die ethischen Fragen sind beträchtlich. Crowdworker werden oft schlecht bezahlt (Cent-Beträge pro Task), haben keine Arbeitsschutzrechte und sind unsichtbar. Time Magazine enthüllte 2023, dass Annotatoren in Kenia für ChatGPTs Sicherheitsfilter verstörendes Material sichten mussten — für weniger als 2 Dollar pro Stunde. Die Frage, wer die menschliche Arbeit hinter der KI-Branche leistet und unter welchen Bedingungen, verdient mehr öffentliche Aufmerksamkeit.