Crawler
Ein Crawler (auch Webcrawler oder Spider) ist ein Programm, das systematisch das Internet durchsucht, Webseiten herunterlädt und deren Inhalte indexiert. Im KI-Zeitalter sind Crawler die Erntemaschinen für Trainingsdaten.
Google's Googlebot ist der bekannteste Crawler: Er entdeckt neue Webseiten, folgt Links und befüllt den Suchindex. Common Crawl betreibt einen der größten öffentlichen Crawler und stellt die Ergebnisse frei zur Verfügung — die Grundlage für das Training der meisten großen Sprachmodelle.
Im KI-Kontext sind Crawler in mehrfacher Hinsicht relevant. Trainingsdaten: GPT-3, LLaMA, Mistral und andere LLMs sind auf gecrawlten Webdaten trainiert. Common Crawl, C4 und RefinedWeb sind die meistgenutzten gefilterten Datensätze. RAG-Systeme: Crawler befüllen die Wissensdatenbanken, auf die Retrieval-Augmented Generation zugreift. Competitive Intelligence: Unternehmen crawlen systematisch öffentliche Daten für Marktanalysen.
Die rechtliche Situation ist komplex. Die robots.txt-Datei erlaubt Websitebetreibern, Crawlern den Zugang zu verbieten — aber die Einhaltung ist freiwillig. Die Frage, ob das massenhafte Crawlen urheberrechtlich geschützter Inhalte für KI-Training legal ist, ist Gegenstand laufender Klagen (New York Times vs. OpenAI).
Technisch haben Crawler Herausforderungen: Respektierung von Rate Limits, Umgang mit JavaScript-gerendertem Content, Deduplizierung, Spracherkennung und Qualitätsbewertung. Die Kuration der gecrawlten Daten — Spam entfernen, Qualität bewerten, sensible Daten filtern — ist mindestens so aufwendig wie das Crawlen selbst.