Character
Im Kontext von Textverarbeitung und NLP ist ein Character (Zeichen) die kleinste Einheit der Sprache — ein einzelner Buchstabe, eine Ziffer, ein Satzzeichen oder ein Sonderzeichen. Die Frage, auf welcher Ebene ein Sprachmodell Text verarbeitet, ist eine fundamentale Architekturentscheidung.
Moderne LLMs arbeiten nicht auf Character-Ebene, sondern auf Token-Ebene. Tokens sind Subwörter — häufige Wörter wie „the" sind ein Token, seltene Wörter wie „Nachhaltigkeitsbericht" werden in mehrere Tokens zerlegt. Byte-Pair Encoding (BPE), SentencePiece und WordPiece sind die verbreiteten Tokenizer.
Character-Level-Modelle haben dennoch spezifische Vorteile. Sie kennen kein „Out of Vocabulary"-Problem — jedes Wort, jedes Sonderzeichen, jeder Tippfehler kann verarbeitet werden. Für Aufgaben wie Rechtschreibkorrektur, Handschrifterkennung und die Verarbeitung von Sprachen mit komplexer Morphologie (Finnisch, Türkisch, Arabisch) sind Character-Level-Ansätze robuster.
ByT5 (Google, 2022) zeigte, dass ein Byte-Level-Modell (das direkt auf UTF-8-Bytes arbeitet) bei bestimmten Aufgaben Token-basierte Modelle übertrifft — besonders bei verrauschten Eingaben (Tippfehler, Code-Mixing, Non-Standard-Sprache). Der Preis: Die Sequenzen werden deutlich länger (ein Wort = viele Bytes), was die Rechenkosten erhöht.
Die Debatte „Tokens vs. Characters vs. Bytes" ist nicht abgeschlossen. Die ideale Granularität hängt von der Aufgabe, der Sprache und den verfügbaren Ressourcen ab.