Zum Inhalt springen KI-Lexikon — Die KI Woche
Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Internet

Deep Web

Das Deep Web (auch Invisible Web oder Hidden Web) umfasst alle Inhalte im Internet, die nicht von Standard-Suchmaschinen indexiert werden — und damit den Großteil des Internets.

Die Unterscheidung: Das Surface Web (das „sichtbare" Internet, durch Google indexiert) macht nach Schätzungen nur 4-10% des gesamten Internets aus. Das Deep Web umfasst alles, was hinter Login-Schranken liegt (Online-Banking, E-Mail-Postfächer, Unternehmens-Intranets), dynamisch generierte Inhalte, passwortgeschützte Datenbanken und nicht verlinkte Seiten.

Der häufige Verwechslungsfehler: Deep Web ≠ Dark Web. Das Dark Web ist ein winziger Teil des Deep Web, der nur über spezielle Software (Tor) erreichbar ist und mit illegalen Marktplätzen assoziiert wird. Die allermeisten Deep-Web-Inhalte sind vollkommen legal und alltäglich — jedes Mal, wenn man ein Gmail-Postfach öffnet, bewegt man sich im Deep Web.

Für die KI-Forschung ist das Deep Web relevant, weil es riesige Mengen wertvoller Daten enthält, die für das Training von Modellen nicht zugänglich sind: Medizinische Datenbanken, wissenschaftliche Literatur hinter Paywalls, Unternehmensdaten. Common Crawl und andere Web-Crawls erfassen nur das Surface Web.

RAG-Systeme (Retrieval-Augmented Generation) können Deep-Web-Inhalte einbeziehen, wenn sie über autorisierte API-Zugänge bereitgestellt werden — etwa durch die Integration von internen Datenbanken, Sharepoint-Dokumenten oder CRM-Systemen in den Retrieval-Prozess.

Search
🔗 Link kopiert!