Créer des agents IA qui marchent grâce aux évaluations, François de Fitte

23 snips

Jan 19, 2026

François de Fitte, entrepreneur et cofondateur de Basalt spécialisé dans les évaluations d’agents IA, partage sa vision. Il décrit pourquoi les évaluations sont la brique manquante pour fiabiliser les workflows agentiques. Plusieurs méthodes pratiques sont abordées: construction de datasets d’éval, LLMs comme juges et une méthodologie en trois étapes. Discussions sur outils, providers et cas d’usage concrets.

Ask episode

AI Snips

Chapters

Books

Transcript

Episode notes

INSIGHT

Nature Et Défi Des Agents

L'agent est une IA qui prend des décisions et orchestre plusieurs étapes plutôt que d'exécuter une seule tâche.
La vraie difficulté n'est pas d'atteindre 80% de fiabilité mais de franchir le palier vers 90-95%.

ADVICE

Construire Un Dataset Dynamique

Créez un dataset de scénarios représentatifs et testez votre agent sur des dizaines à centaines de cas.
Ajoutez en permanence les cas réels observés en production pour faire évoluer les évaluations.

ADVICE

Ne Pas Automatiser Trop Tôt

Commencez les évaluations manuellement avant d'automatiser avec des LLM as a judge.
Calibrez d'abord la taxonomie d'erreurs en observant et annotant librement les outputs humains.

Get the Snipd Podcast app to discover more snips from this episode

Get the app