Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Daten

Character

Im Kontext von Textverarbeitung und NLP ist ein Character (Zeichen) die kleinste Einheit der Sprache — ein einzelner Buchstabe, eine Ziffer, ein Satzzeichen oder ein Sonderzeichen. Die Frage, auf welcher Ebene ein Sprachmodell Text verarbeitet, ist eine fundamentale Architekturentscheidung.

Moderne LLMs arbeiten nicht auf Character-Ebene, sondern auf Token-Ebene. Tokens sind Subwörter — häufige Wörter wie „the" sind ein Token, seltene Wörter wie „Nachhaltigkeitsbericht" werden in mehrere Tokens zerlegt. Byte-Pair Encoding (BPE), SentencePiece und WordPiece sind die verbreiteten Tokenizer.

Character-Level-Modelle haben dennoch spezifische Vorteile. Sie kennen kein „Out of Vocabulary"-Problem — jedes Wort, jedes Sonderzeichen, jeder Tippfehler kann verarbeitet werden. Für Aufgaben wie Rechtschreibkorrektur, Handschrifterkennung und die Verarbeitung von Sprachen mit komplexer Morphologie (Finnisch, Türkisch, Arabisch) sind Character-Level-Ansätze robuster.

ByT5 (Google, 2022) zeigte, dass ein Byte-Level-Modell (das direkt auf UTF-8-Bytes arbeitet) bei bestimmten Aufgaben Token-basierte Modelle übertrifft — besonders bei verrauschten Eingaben (Tippfehler, Code-Mixing, Non-Standard-Sprache). Der Preis: Die Sequenzen werden deutlich länger (ein Wort = viele Bytes), was die Rechenkosten erhöht.

Die Debatte „Tokens vs. Characters vs. Bytes" ist nicht abgeschlossen. Die ideale Granularität hängt von der Aufgabe, der Sprache und den verfügbaren Ressourcen ab.

Text