Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Generative AI

Audio Gen

Audio Generation umfasst KI-Systeme, die Klänge, Musik, Soundeffekte und Sprache synthetisch erzeugen. Das Feld hat sich 2023/2024 von einer Kuriosität zu einem ernstzunehmenden kreativen Werkzeug entwickelt.

Im Bereich Musikgenerierung haben Suno und Udio die Branche aufgemischt: Aus einer Textbeschreibung (z.B. „melancholischer Indie-Folk-Song über verlorene Liebe") erzeugen sie komplette Songs mit Gesang, Instrumentierung und Struktur in unter einer Minute. Die Qualität erreicht teilweise Radioniveau. Googles MusicLM (2023) und Metas MusicGen arbeiten mit ähnlichen Ansätzen, unterscheiden sich aber in Lizenz und Verfügbarkeit.

Sprachsynthese (Text-to-Speech, TTS) hat durch Modelle wie ElevenLabs einen Quantensprung gemacht. Aus wenigen Sekunden Sprachaufnahme können diese Systeme eine Stimme klonen und beliebige Texte in dieser Stimme sprechen lassen — mit natürlicher Prosodie, emotionalem Ausdruck und Mehrsprachigkeit. Die Implikationen für Podcasts, Hörbücher und Film-Synchronisation sind offensichtlich; die Missbrauchspotentiale (Deepfake-Anrufe, gefälschte Sprachnachrichten) ebenso.

Soundeffekt-Generierung (z.B. durch ElevenLabs Sound Effects oder Stability Audio) erzeugt Film- und Spielsounds aus Textbeschreibungen — ein Bereich, der traditionell stundenlanges Foley-Recording oder Sounddesign erforderte.

Die Urheberrechtsdebatten sind besonders hitzig: Mehrere Major Labels haben 2024 Klagen gegen Suno und Udio eingereicht und argumentieren, die Modelle seien auf urheberrechtlich geschützter Musik trainiert worden.

Sound
🔗 Link kopiert!