Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Daten

Common Crawl

Common Crawl ist der größte öffentlich zugängliche Web-Crawl der Welt — ein Datensatz, der Milliarden von Webseiten umfasst und für das Training praktisch aller großen Sprachmodelle verwendet wird.

Das gemeinnützige Projekt crawlt regelmäßig das öffentliche Web und stellt die Ergebnisse kostenlos bereit. Der Gesamtdatensatz umfasst Hunderte Terabyte an rohem HTML und extrahiertem Text. Ein einzelner monatlicher Crawl enthält typischerweise 2-3 Milliarden Webseiten.

GPT-3 nutzte Common Crawl als größte Einzelquelle seiner Trainingsdaten (60% des gewichteten Trainingsmixes). LLaMA, Mistral, BLOOM und die meisten anderen LLMs verwenden ebenfalls gefilterte Versionen. Die Herausforderung: Common Crawl enthält auch Spam, Pornografie, Hassrede, veraltete Informationen und duplizierte Inhalte. Deshalb durchlaufen die Daten aufwendige Filterungspipelines — Perplexity-Filter, Deduplizierung, Qualitätsklassifikatoren.

Die Zusammensetzung von Common Crawl spiegelt das Internet wider — mit allen Verzerrungen: Englisch dominiert, westliche Perspektiven sind überrepräsentiert, und die Qualität schwankt enorm. Die Nachfolger-Datensätze C4, mC4, OSCAR und RefinedWeb filtern und kuratieren die Rohdaten mit unterschiedlichen Prioritäten.

Die Urheberrechtslage ist umstritten. Verlage und Autoren argumentieren, dass ihre Inhalte ohne Genehmigung zum Training kommerzieller KI-Modelle genutzt werden. Die laufenden Klagen (u.a. New York Times vs. OpenAI) werden maßgeblich darüber entscheiden, ob Web-Crawls als Training-Quelle legal bleiben.

Dataset