FPGA
Ein FPGA (Field-Programmable Gate Array) ist ein konfigurierbarer Halbleiter-Chip, der nach der Herstellung für spezifische Aufgaben umprogrammiert werden kann — ein Mittelding zwischen der Flexibilität einer CPU und der Effizienz eines spezialisierten ASIC.
Für KI-Inferenz bieten FPGAs eine interessante Nische. Sie können für spezifische Netzwerkarchitekturen optimiert werden und liefern niedrigere Latenz und bessere Energieeffizienz als GPUs — allerdings bei geringerer Peak-FLOPS-Leistung.
Microsoft nutzte FPGAs großflächig im Projekt Brainwave für Bing-Suche und Azure-KI-Inferenz. Intel übernahm Altera (den zweitgrößten FPGA-Hersteller) 2015 für 16,7 Milliarden Dollar — eine strategische Wette auf FPGAs für KI am Edge.
Die Vorteile: Rekonfigurierbarkeit (ein FPGA kann für verschiedene Modelle umprogrammiert werden), niedrige Latenz (keine Betriebssystem-Overhead), Energieeffizienz (konfigurierte Logik verbraucht weniger Strom als allgemeine GPU-Kerne) und Zuverlässigkeit (keine Software-Abstürze im klassischen Sinne).
Die Nachteile: Schwierigere Programmierung (HDL — Hardware Description Languages — sind komplex), geringere Community und Tool-Unterstützung im Vergleich zu CUDA, und bei sehr großen Modellen reicht die On-Chip-Speicherkapazität nicht aus.
Der Markt hat sich seit 2020 verschoben: Spezialisierte KI-ASICs (Nvidia H100, Google TPU, Groq LPU) und CPUs mit integrierten NPUs haben den FPGA-Vorteil in vielen Szenarien neutralisiert. FPGAs bleiben aber relevant für Edge-Inferenz, Fintech (ultra-niedrige Latenz) und spezifische HPC-Workloads.