Multimodal

CLIP

CLIP (Contrastive Language-Image Pre-training), 2021 von OpenAI vorgestellt, war ein Wendepunkt für multimodale KI — es lernte, Bilder und Texte in einem gemeinsamen Bedeutungsraum zu verknüpfen.

Das Training ist elegant. CLIP sieht 400 Millionen Bild-Text-Paare aus dem Internet. Für jeden Batch lernt es, das richtige Bild zum richtigen Text zuzuordnen (und umgekehrt) — Contrastive Learning. Nach dem Training kann CLIP für ein beliebiges Bild den passendsten Text aus einer Liste auswählen, ohne jemals explizit für eine spezifische Aufgabe trainiert worden zu sein (Zero-Shot Classification).

Die Implikationen waren weitreichend. Vor CLIP brauchte jede Bildklassifizierungsaufgabe einen eigenen, spezifisch annotierten Datensatz. Mit CLIP kann man ein Modell einfach fragen: „Ist das ein Hund oder eine Katze?" — in natürlicher Sprache, ohne eigenes Training.

CLIP wurde zur Grundlage mehrerer Durchbrüche. DALL-E nutzte CLIPs Text-Verständnis, um zu beurteilen, wie gut ein generiertes Bild zum Prompt passt. Stable Diffusion verwendet einen CLIP-Text-Encoder, um Textprompts in den Bildgenerierungsprozess einzuspeisen. Das Open-Source-Ökosystem baute auf CLIP auf: OpenCLIP, SigLIP, EVA-CLIP.

Die Schwächen: CLIP kann zählen (schlecht) und räumliche Beziehungen verstehen (begrenzt). „Ein Hund sitzt auf einem Pferd" und „Ein Pferd sitzt auf einem Hund" sehen für CLIP ähnlich aus. Nachfolger wie SigLIP und MetaCLIP adressieren einige dieser Limitationen.

Vision Text

CLIP

Fehler melden

Die KI Woche als App