Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
NLP

Bag of Words

Das 'Bag of Words'-Modell (BoW) ist eine klassische, vereinfachende Methode im Natural Language Processing (NLP), um Text in ein Format umzuwandeln, das Computer verarbeiten können (numerische Vektoren). Wie der Name andeutet, betrachtet diese Methode einen Text als einen ungeordneten 'Sack' voller Wörter. Die Grammatik, die Satzstruktur und vor allem die Reihenfolge der Wörter werden dabei vollständig ignoriert. Es zählt einzig und allein, welche Wörter vorkommen und wie oft (Wortfrequenz).

Ein Satz wie 'Der Hund beißt den Mann' hätte im BoW-Modell die absolut gleiche Repräsentation wie 'Der Mann beißt den Hund', obwohl die Bedeutung völlig anders ist. Trotz dieser enormen Simplifizierung war BoW jahrzehntelang der Standard für Aufgaben wie Spam-Erkennung oder Themen-Klassifizierung, da das bloße Vorhandensein bestimmter Signalwörter (z.B. 'Viagra', 'Gewinn', 'Prinz') oft schon ausreicht, um den Inhalt grob einzuordnen. In moderner KI wurde es weitgehend durch Embeddings und Transformer-Modelle abgelöst, die Kontext und Reihenfolge verstehen.

Legacy Text