Podlodka #452 – Архитектура LLM-приложений

12 snips

Nov 25, 2025

Владислав Танков, директор по AI в JetBrains, делится опытом развертывания LLM-приложений. Он обсуждает выбор места для инференса: локально или в облаке, а также детали масштабирования. Владислав объясняет разницу между мини и полноразмерными моделями, указывая на компромиссы между качеством и стоимостью. Рассматриваются подходы к оптимизации и использование структурированных выводов для надежности. В конце он поднимает вопросы безопасности и борьбы с фродом в LLM-системах.

Ask episode

AI Snips

Chapters

Transcript

Episode notes

ADVICE

Снижайте Стоимость Моделью Ниже

Оптимизируйте стоимость через даунгрейд моделей и контроль токенов входа/выхода.
Тестируйте cheaper‑модели (mini/flash) и переходите на них, если качество приемлемо.

INSIGHT

Структурируйте Вывод Чтобы Снизить Расходы

Структурированный вывод (JSON‑schema) существенно уменьшает избыточную генерацию.
Structured output помогает контролировать стоимость и надежность ответа.

ADVICE

Снизьте Задержку Через Edge И Малые Модели

Для latency‑чувствительных интерфейсов (IDE, автокомплит) размещайте инференс ближе к пользователю или на edge.
Рассмотрите локальные tiny‑модели для триггеров и удаляйте лишние запросы в облако.

Get the Snipd Podcast app to discover more snips from this episode

Get the app