Aktuelle Beiträge
Lade Beiträge…
📰 Alle Beiträge 📬 Newsletter
Tools

Gemini

Gemini ist Googles multimodales KI-Modell — die Antwort auf GPT-4 und der zentrale Baustein von Googles KI-Strategie.

Im Dezember 2023 unter dem Namen Gemini angekündigt (vorher intern „Gemini Ultra"), ersetzt es die frühere PaLM-2-Modellfamilie und vereint Googles KI-Ressourcen aus DeepMind und Google Brain. Die Modellvarianten: Gemini Ultra (größtes Modell, für komplexe Tasks), Gemini Pro (Allrounder), Gemini Flash (schnell und effizient, für hohen Durchsatz), Gemini Nano (On-Device, für Smartphones).

Natives Multimodal: Anders als GPT-4 (das Text und Bilder über separate Encoder zusammenführt) wurde Gemini von Grund auf multimodal trainiert — Text, Bilder, Audio, Video und Code in einem einzigen Modell. Die Architektur basiert auf Transformer-Varianten mit MoE-Elementen (Mixture of Experts).

Integration im Google-Ökosystem: Gemini steckt in der Google-Suche (AI Overviews), Workspace (Docs, Sheets, Gmail), Android (Gemini als Standard-Assistent statt Google Assistant), Google Cloud (Vertex AI) und YouTube (Transkription, Zusammenfassung).

Die Kontextfenstergröße ist bemerkenswert: Gemini 1.5 Pro verarbeitet bis zu 2 Millionen Tokens — genug für mehrstündige Videos, ganze Codebases oder Tausende Seiten Dokumente. Diese „Long Context"-Fähigkeit positioniert Gemini für Analyse-Aufgaben, die andere Modelle nicht bewältigen können.

Googles Vorteil: Zugang zu proprietären Daten (YouTube-Videos, Google-Suche, Scholar), eigene Hardware (TPUs), und tiefe Integration in ein Ökosystem mit 2+ Milliarden Nutzern.

Google LLM