99 twarzy AI

92/99 - Twoim wrogiem jest wiersz. Jak hakuje się AI w 2026 roku? Klaudia Kloc

Feb 22, 2026
Klaudia Kloc, ekspertka cyberbezpieczeństwa i badaczka jailbreakingu LLM. Opowiada o tym, jak wiersze i socjotechnika potrafią obejść zabezpieczenia modeli. Mówi o prompt injection w CV i kalendarzu, modelach atakujących modele oraz o nowych rolach jak vibe coder i prompt engineer. Porusza też ryzyko AI gaslightingu i geopolityczne różnice między modelami.
Ask episode
AI Snips
Chapters
Books
Transcript
Episode notes
INSIGHT

Wieloetapowa Obrona Przeciw Prompt Injection

  • Firmy stosują wielowarstwowe architektury: model generujący, model weryfikujący i model z policies.
  • To utrudnia proste prompt injectiony typu 'ignore previous instructions', ale ataki ewoluują wraz z multimodalnością i kontekstem.
ADVICE

Zabezpieczaj Do Poziomu Nieopłacalności Ataku

  • Analizuj ryzyko: zabezpiecz systemy tak, by atak stawał się nieopłacalny.
  • Klaudia porównuje to do klasycznego hackowania i sugeruje zwiększanie wysiłku potrzebnego do jailbreaku.
ANECDOTE

Path Traversal Plus Jailbreak Ujawnił 8M Kont

  • Przykład realnego ataku: wykorzystano path traversal plus jailbreak modelu i uzyskano dostęp do plików z hasłami oraz danymi kart, potencjalnie 8 milionów kont.
  • Klaudia podkreśla, że bez luki w kodzie atak by nie przeszedł.
Get the Snipd Podcast app to discover more snips from this episode
Get the app