Deep Web
Das Deep Web (auch Invisible Web oder Hidden Web) umfasst alle Inhalte im Internet, die nicht von Standard-Suchmaschinen indexiert werden — und damit den Großteil des Internets.
Die Unterscheidung: Das Surface Web (das „sichtbare" Internet, durch Google indexiert) macht nach Schätzungen nur 4-10% des gesamten Internets aus. Das Deep Web umfasst alles, was hinter Login-Schranken liegt (Online-Banking, E-Mail-Postfächer, Unternehmens-Intranets), dynamisch generierte Inhalte, passwortgeschützte Datenbanken und nicht verlinkte Seiten.
Der häufige Verwechslungsfehler: Deep Web ≠ Dark Web. Das Dark Web ist ein winziger Teil des Deep Web, der nur über spezielle Software (Tor) erreichbar ist und mit illegalen Marktplätzen assoziiert wird. Die allermeisten Deep-Web-Inhalte sind vollkommen legal und alltäglich — jedes Mal, wenn man ein Gmail-Postfach öffnet, bewegt man sich im Deep Web.
Für die KI-Forschung ist das Deep Web relevant, weil es riesige Mengen wertvoller Daten enthält, die für das Training von Modellen nicht zugänglich sind: Medizinische Datenbanken, wissenschaftliche Literatur hinter Paywalls, Unternehmensdaten. Common Crawl und andere Web-Crawls erfassen nur das Surface Web.
RAG-Systeme (Retrieval-Augmented Generation) können Deep-Web-Inhalte einbeziehen, wenn sie über autorisierte API-Zugänge bereitgestellt werden — etwa durch die Integration von internen Datenbanken, Sharepoint-Dokumenten oder CRM-Systemen in den Retrieval-Prozess.