
programmier.bar – der Podcast für App- und Webentwicklung Deep Dive 203 – AI in Production mit Maximilian Hudlberger
13 snips
Mar 17, 2026 Maximilian Hudlberger, Solution Architect bei OpenAI und früherer Lead Data Scientist, erklärt Best Practices für AI in Produktion. Er spricht über typische Use-Cases wie Retrieval-Chatbots, Klassifikation und Multi-Step-Agenten. Themen sind Evaluation/Quality Assurance, Kosten, Latenz, Caching, Context- und Prompt-Engineering sowie Fine-Tuning und Agenten-Evaluierung.
AI Snips
Chapters
Books
Transcript
Episode notes
Drei Dominante LLM Use Cases
- Viele LLM-Use Cases folgen klaren Mustern wie Knowledge-Retrieval-Chatbots, Klassifikation und Agenten mit Multi-Step-Reasoning.
- Agenten steuern Workflows, callen Tools und können an andere Agenten übergeben, z.B. Trip-Planner oder Customer-Service-Flows.
Eval-Driven Vor Produktion Gehen
- Definiere Eval-Kriterien früh und operationalisiere "gut" durch Golden Datasets und erwartete Antworten.
- Messe Output-Qualität, Stil und Groundedness separat (z.B. Recall/Precision) und lege Quality Gates vor Produktion fest.
Beginne Evals Mit Human Annotation
- Starte mit Human Annotation und baue dann LLM-Grader für schwer bewertbare Maße wie Stil und Ton.
- Iteriere Prompt-Engineering basierend auf menschlichen Bewertungen, bevor du automatisierte Grader einsetzt.


