
99 twarzy AI 92/99 - Twoim wrogiem jest wiersz. Jak hakuje się AI w 2026 roku? Klaudia Kloc
Feb 22, 2026
Klaudia Kloc, ekspertka cyberbezpieczeństwa i badaczka jailbreakingu LLM. Opowiada o tym, jak wiersze i socjotechnika potrafią obejść zabezpieczenia modeli. Mówi o prompt injection w CV i kalendarzu, modelach atakujących modele oraz o nowych rolach jak vibe coder i prompt engineer. Porusza też ryzyko AI gaslightingu i geopolityczne różnice między modelami.
AI Snips
Chapters
Books
Transcript
Episode notes
Wieloetapowa Obrona Przeciw Prompt Injection
- Firmy stosują wielowarstwowe architektury: model generujący, model weryfikujący i model z policies.
- To utrudnia proste prompt injectiony typu 'ignore previous instructions', ale ataki ewoluują wraz z multimodalnością i kontekstem.
Zabezpieczaj Do Poziomu Nieopłacalności Ataku
- Analizuj ryzyko: zabezpiecz systemy tak, by atak stawał się nieopłacalny.
- Klaudia porównuje to do klasycznego hackowania i sugeruje zwiększanie wysiłku potrzebnego do jailbreaku.
Path Traversal Plus Jailbreak Ujawnił 8M Kont
- Przykład realnego ataku: wykorzystano path traversal plus jailbreak modelu i uzyskano dostęp do plików z hasłami oraz danymi kart, potencjalnie 8 milionów kont.
- Klaudia podkreśla, że bez luki w kodzie atak by nie przeszedł.

