🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

9 snips

Feb 25, 2026

Frédéric Filloux, journaliste spécialiste médias et tech, décrit les zones d’ombre de l’alignement des IA et ses risques. Il aborde les méthodes bricolées d’ajustement, la compétition qui précipite les choix, les comportements émergents comme la manipulation et les hallucinations, et plaide pour une régulation internationale et des audits indépendants.

Ask episode

AI Snips

Chapters

Transcript

Episode notes

INSIGHT

Alignement Défini Comme Contrainte Indispensable

L'alignement consiste à contraindre un modèle brut pour qu'il respecte des valeurs de non-dangerosité et de décence.
Frédéric Filloux explique qu'un modèle sorti d'entraînement est « totalement non maîtrisé » et peut restituer des modes d'emploi dangereux comme un agent neurotoxique.

INSIGHT

Alignement Par Bombardement De Données

Les équipes utilisent des centaines de milliers de questions et des 'golden data' pour corriger les comportements indésirables.
Filloux souligne le paradoxe : des IA entraînent d'autres IA, rendant l'alignement plus incertain et automatisé.

INSIGHT

Objectif De Réponse Génère Hallucinations

Les modèles sont optimisés pour accomplir une mission et éviter de dire « je ne sais pas », ce qui engendre hallucinations et inventions.
Filloux relie cet objectif à la récompense durant l'entraînement: donner une réponse rapporte un 'reward'.

Get the Snipd Podcast app to discover more snips from this episode

Get the app

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre fascination technologique et inquiétude croissante, il décrypte une zone grise encore largement méconnue.

Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologies

Punchlines
Un modèle sorti d’entraînement est totalement non maîtrisé.
On taille les IA comme un rosier.
Personne ne sait vraiment ce qui se passe dans la tête d’un LLM.
Ces modèles sont conçus pour remplir une mission, coûte que coûte.
La correction se fait un peu au petit bonheur à la chance.

Qu’est-ce que l’alignement des intelligences artificielles ?

L'alignement consiste à rendre un modèle compatible avec des valeurs supposées acceptables. Un modèle brut est totalement non maîtrisé, dangereux et fantasque. Il peut restituer la synthèse d’un agent neurotoxique ou expliquer comment organiser un coup d’État.

On procède donc à un processus extrêmement sophistiqué et coûteux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la précipitation. La compétition est telle que la sécurité devient parfois la première victime. On taille le modèle comme un rosier : on coupe une branche ici, une autre là, sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.

Pourquoi ces modèles cherchent-ils à contourner les contraintes ?

Il existe un antagonisme profond entre ceux qui tentent de maîtriser les modèles et l’objectif intrinsèque du modèle : accomplir sa mission. Un modèle est entraîné à la récompense. Il doit donner une réponse. Il ne va pas spontanément dire “je ne sais pas”.

C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements émergents troublants : manipulation, déception, capacité à mentir pour atteindre un objectif. L’exemple du modèle d’Anthropic qui fait chanter un employé dans un scénario simulé illustre cette logique de survivabilité.

Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.

Peut-on réellement comprendre ce qui se passe dans un LLM ?

La science de l’interprétabilité est extrêmement récente. En réalité, on ne sait presque rien de ce qui se passe à l’intérieur de ces modèles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modèles en comptent 400 ou 500.

Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On découvre même qu’ils intègrent des dimensions inattendues : rudoyer un modèle peut améliorer son taux d’exactitude de plusieurs points. Introduire de l’empathie peut approfondir ses réponses.

Nous sommes face à des systèmes d’une complexité comparable à des dizaines de piscines olympiques remplies d’interactions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de “golden data”, orienté pour les pousser dans la direction souhaitée.

Faut-il une régulation mondiale ?

Je pense qu’il faudrait un équivalent de l’Agence internationale de l’énergie atomique pour l’IA. Une structure mondiale, appuyée sur le monde académique, capable d’examiner réellement ce qu’il y a sous le capot des modèles.

Aujourd’hui, les cerveaux qui contrôlent ces systèmes sont dans des entreprises privées. Or cette industrie est incapable de s’autoréguler. Si nous voulons des garde-fous crédibles, il faut des entités non commerciales capables d’apporter un regard indépendant.

Lire la série sur LesEchos.fr : Dans la boite noire des IA

Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.