Metrik

FLOPs

FLOPS (Floating Point Operations Per Second) sind die Standardeinheit für die Rechenleistung von KI-Hardware — wie schnell ein Chip Gleitkommaberechnungen durchführen kann.

Die Skala: GFLOPS (Giga, 10⁹), TFLOPS (Tera, 10¹²), PFLOPS (Peta, 10¹⁵), EFLOPS (Exa, 10¹⁸). Eine Nvidia H100 GPU liefert ca. 990 TFLOPS (FP16) bzw. ca. 3.958 TFLOPS (FP8 mit Tensor Cores). Zum Vergleich: Ein Laptop-Prozessor schafft etwa 100-500 GFLOPS — Faktor 10.000 langsamer.

Die Unterscheidung zwischen FP32, FP16, INT8 und FP8 ist zentral: Niedrigere Präzision ermöglicht mehr Operationen pro Sekunde. Für KI-Training reicht FP16 oder BFloat16 typischerweise aus. Für Inferenz genügt oft INT8 oder INT4. Die FLOPS-Angaben variieren daher je nach Datentyp drastisch.

FLOP (ohne S, Plural) bezeichnet die Gesamtmenge der Berechnungen für eine Aufgabe. GPT-3 wurde mit geschätzt 3.14 × 10²³ FLOP trainiert. GPT-4 mit geschätzt 2 × 10²⁵ FLOP. Diese Zahlen sind zentrale Parameter der Scaling Laws.

Die Compute-Governance-Debatte verwendet FLOP als Schwellenwert: Der EU AI Act definiert ab 10²⁵ FLOP Training-Compute „General Purpose AI Models with Systemic Risk" — ein regulatorischer Grenzwert, der auf Hardware-Messungen basiert.

Peakleistung vs. reale Leistung: Die TFLOPS-Angaben der Hersteller sind theoretische Maximalwerte. In der Praxis erreichen KI-Workloads typischerweise 30-60% davon — Memory Bandbreite, Kommunikation und Software-Overhead reduzieren die nutzbare Leistung.

Compute

FLOPs

Verwandte Begriffe

Fehler melden

Die KI Woche als App