92/99 - Twoim wrogiem jest wiersz. Jak hakuje się AI w 2026 roku? Klaudia Kloc

Feb 22, 2026

Klaudia Kloc, ekspertka cyberbezpieczeństwa i badaczka jailbreakingu LLM. Opowiada o tym, jak wiersze i socjotechnika potrafią obejść zabezpieczenia modeli. Mówi o prompt injection w CV i kalendarzu, modelach atakujących modele oraz o nowych rolach jak vibe coder i prompt engineer. Porusza też ryzyko AI gaslightingu i geopolityczne różnice między modelami.

Ask episode

AI Snips

Chapters

Books

Transcript

Episode notes

INSIGHT

Wieloetapowa Obrona Przeciw Prompt Injection

Firmy stosują wielowarstwowe architektury: model generujący, model weryfikujący i model z policies.
To utrudnia proste prompt injectiony typu 'ignore previous instructions', ale ataki ewoluują wraz z multimodalnością i kontekstem.

ADVICE

Zabezpieczaj Do Poziomu Nieopłacalności Ataku

Analizuj ryzyko: zabezpiecz systemy tak, by atak stawał się nieopłacalny.
Klaudia porównuje to do klasycznego hackowania i sugeruje zwiększanie wysiłku potrzebnego do jailbreaku.

ANECDOTE

Path Traversal Plus Jailbreak Ujawnił 8M Kont

Przykład realnego ataku: wykorzystano path traversal plus jailbreak modelu i uzyskano dostęp do plików z hasłami oraz danymi kart, potencjalnie 8 milionów kont.
Klaudia podkreśla, że bez luki w kodzie atak by nie przeszedł.

Get the Snipd Podcast app to discover more snips from this episode