LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang

May 11, 2026

46:38

forum

Ask episode

view_agenda

Chapters

auto_awesome

Transcript

info_circle

Episode notes

Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?

Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.

Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.

Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.

Il explique :

La différence entre un workflow IA séquentiel vs un agent autonome.
Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.
L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.
Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.

(00:00:00) Parcours de Laurent et mission de Mankind

(00:06:21) Systèmes agentiques et limites du LLM as a judge

(00:15:27) Du contexte aux tests déterministes

(00:25:31) Orchestration, modèles et mise en production

(00:36:03) RAG, graphes et adoption de l’IA agentique

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.