
Podlodka #452 – Архитектура LLM-приложений
12 snips
Nov 25, 2025 Владислав Танков, директор по AI в JetBrains, делится опытом развертывания LLM-приложений. Он обсуждает выбор места для инференса: локально или в облаке, а также детали масштабирования. Владислав объясняет разницу между мини и полноразмерными моделями, указывая на компромиссы между качеством и стоимостью. Рассматриваются подходы к оптимизации и использование структурированных выводов для надежности. В конце он поднимает вопросы безопасности и борьбы с фродом в LLM-системах.
AI Snips
Chapters
Transcript
Episode notes
Снижайте Стоимость Моделью Ниже
- Оптимизируйте стоимость через даунгрейд моделей и контроль токенов входа/выхода.
- Тестируйте cheaper‑модели (mini/flash) и переходите на них, если качество приемлемо.
Структурируйте Вывод Чтобы Снизить Расходы
- Структурированный вывод (JSON‑schema) существенно уменьшает избыточную генерацию.
- Structured output помогает контролировать стоимость и надежность ответа.
Снизьте Задержку Через Edge И Малые Модели
- Для latency‑чувствительных интерфейсов (IDE, автокомплит) размещайте инференс ближе к пользователю или на edge.
- Рассмотрите локальные tiny‑модели для триггеров и удаляйте лишние запросы в облако.
