
INNOQ Podcast AI News
Apr 2, 2026
Es geht um Speicherknappheit in KI-Systemen und Googles 3‑Bit‑Kompression als mögliche Antwort. CLIs werden als beliebte Steuerung für KI‑Agenten vorgestellt und deren Sicherheitsrisiken diskutiert. Ein versehentlicher Quellcode‑Leak von Anthropics sorgt für Sorgen um Nachbauten und Supply‑Chain‑Angriffe. Dazu gibt es praktische Tipps für lokale Nutzung und Schutz vor Credential‑Diebstahl.
AI Snips
Chapters
Transcript
Episode notes
TurboQuant hilft Rechenzentren nicht lokalen Nutzern
- Google TurboQuant quantisiert Key-Value im Attention-Mechanismus auf 3-Bit und spart so massiv Speicher bei der Token-Generierung.
- Die Methode hilft vor allem Hyperscalern im Rechenzentrum; für lokale Nutzer bleibt Prefill-Overhead und wenig Nutzen.
Effizienz führt zu mehr Nutzung, nicht zu niedrigen Preisen
- Effizienzgewinne wie TurboQuant erhöhen meist Nutzung und führen dazu, dass Modelle wieder größer und anspruchsvoller werden.
- Fabian erklärt, dass Einsparungen oft in bessere Modelle und mehr Nutzung fließen, nicht in deutlich niedrigere Preise.
Nemotron 3 reduziert aktiven Speicher durch selektive Aktivierung
- NVIDIA Nemotron 3 aktiviert nur Teilmengen der 120 Milliarden Parameter simultan, um aktiven Speicherbedarf zu senken.
- Ziel ist mehrere Agents parallel zu betreiben und Speicher pro Anfrage niedrig zu halten, speziell für Rechenzentren.
