INNOQ Podcast

AI News

Apr 2, 2026
Es geht um Speicherknappheit in KI-Systemen und Googles 3‑Bit‑Kompression als mögliche Antwort. CLIs werden als beliebte Steuerung für KI‑Agenten vorgestellt und deren Sicherheitsrisiken diskutiert. Ein versehentlicher Quellcode‑Leak von Anthropics sorgt für Sorgen um Nachbauten und Supply‑Chain‑Angriffe. Dazu gibt es praktische Tipps für lokale Nutzung und Schutz vor Credential‑Diebstahl.
Ask episode
AI Snips
Chapters
Transcript
Episode notes
INSIGHT

TurboQuant hilft Rechenzentren nicht lokalen Nutzern

  • Google TurboQuant quantisiert Key-Value im Attention-Mechanismus auf 3-Bit und spart so massiv Speicher bei der Token-Generierung.
  • Die Methode hilft vor allem Hyperscalern im Rechenzentrum; für lokale Nutzer bleibt Prefill-Overhead und wenig Nutzen.
INSIGHT

Effizienz führt zu mehr Nutzung, nicht zu niedrigen Preisen

  • Effizienzgewinne wie TurboQuant erhöhen meist Nutzung und führen dazu, dass Modelle wieder größer und anspruchsvoller werden.
  • Fabian erklärt, dass Einsparungen oft in bessere Modelle und mehr Nutzung fließen, nicht in deutlich niedrigere Preise.
INSIGHT

Nemotron 3 reduziert aktiven Speicher durch selektive Aktivierung

  • NVIDIA Nemotron 3 aktiviert nur Teilmengen der 120 Milliarden Parameter simultan, um aktiven Speicherbedarf zu senken.
  • Ziel ist mehrere Agents parallel zu betreiben und Speicher pro Anfrage niedrig zu halten, speziell für Rechenzentren.
Get the Snipd Podcast app to discover more snips from this episode
Get the app