Podlodka Podcast

Podlodka #452 – Архитектура LLM-приложений

12 snips
Nov 25, 2025
Владислав Танков, директор по AI в JetBrains, делится опытом развертывания LLM-приложений. Он обсуждает выбор места для инференса: локально или в облаке, а также детали масштабирования. Владислав объясняет разницу между мини и полноразмерными моделями, указывая на компромиссы между качеством и стоимостью. Рассматриваются подходы к оптимизации и использование структурированных выводов для надежности. В конце он поднимает вопросы безопасности и борьбы с фродом в LLM-системах.
Ask episode
AI Snips
Chapters
Transcript
Episode notes
ADVICE

Снижайте Стоимость Моделью Ниже

  • Оптимизируйте стоимость через даунгрейд моделей и контроль токенов входа/выхода.
  • Тестируйте cheaper‑модели (mini/flash) и переходите на них, если качество приемлемо.
INSIGHT

Структурируйте Вывод Чтобы Снизить Расходы

  • Структурированный вывод (JSON‑schema) существенно уменьшает избыточную генерацию.
  • Structured output помогает контролировать стоимость и надежность ответа.
ADVICE

Снизьте Задержку Через Edge И Малые Модели

  • Для latency‑чувствительных интерфейсов (IDE, автокомплит) размещайте инференс ближе к пользователю или на edge.
  • Рассмотрите локальные tiny‑модели для триггеров и удаляйте лишние запросы в облако.
Get the Snipd Podcast app to discover more snips from this episode
Get the app