End-to-End Learning
End-to-End Learning (E2E) ist der Ansatz, ein System als einziges, durchgängig trainierbares Modell aufzubauen — statt es in separate, handgefertigte Verarbeitungsschritte zu zerlegen.
Traditionell: Ein Spracherkennungssystem bestand aus einem Akustikmodell, einem Aussprachewörungswörterbuch, einem Sprachmodell und einem Decoder — vier getrennte Komponenten, jede einzeln optimiert. End-to-End: Ein einziges neuronales Netz nimmt Audio-Waveforms entgegen und gibt Text aus. Whisper (OpenAI), DeepSpeech und wav2vec sind Beispiele.
Der Vorteil: Das Gesamtsystem wird auf die eigentliche Aufgabe optimiert, nicht auf Zwischenziele. Fehler in einer Zwischenstufe (z.B. fehlerhafte Phonemerkennung) können vom Gesamtsystem kompensiert werden. Weniger manuelle Arbeit, weniger Domänenwissen nötig.
Für autonomes Fahren: Der traditionelle Ansatz teilt in Wahrnehmung (Objekterkennung), Vorhersage (Bewegungsprognose) und Planung (Fahrstrategie). End-to-End-Ansätze (Tesla FSD, Wayve) füttern Kamerabilder direkt in ein neuronales Netz, das Lenkbefehle ausgibt. Der Vorteil: implizite Überlegungen, die keine Zwischenstufe explizit modelliert. Der Nachteil: mangelnde Erklärbarkeit — wenn das Auto falsch abbiegt, ist unklar, warum.
Das Spannungsfeld zwischen E2E und modularen Systemen ist eine der grundlegenden Architekturdebatten der KI. E2E ist eleganter und oft leistungsstärker. Modulare Systeme sind transparenter, debugbarer und einfacher schrittweise zu verbessern.