
Underscore_ Les méthodes inavouables des géants de l'IA — Jean‑Louis Quéguiner
43 snips
Feb 12, 2026 Jean‑Louis Quéguiner, entrepreneur spécialisé en reconnaissance vocale et gestion de datasets. Il décrypte les signes techniques du pillage de contenu sur YouTube et réseaux sociaux. Il explique les stratégies de collecte de données, le marché des datasets annotés et les enjeux juridiques et économiques. Il aborde aussi les asymétries linguistiques et l’importance du hardware dans la course à la donnée.
AI Snips
Chapters
Transcript
Episode notes
Hallucinations De Sous‑Titres Indiquent Pillage
- Les sous-titres automatiques montrent des « hallucinations » récurrentes comme « abonnez‑vous », signe d'un entraînement sur YouTube.
- Ces artefacts révèlent que des modèles de transcription ont appris l'orodatage et le bruit de fond des vidéos scrappées.
Trinité Data: Quantité, Langues, Qualité
- Jean‑Louis explique que les labs cherchent profondeur, diversité linguistique et qualité des données.
- Ils pillent social media et vidéos pour augmenter la quantité puis retravaillent la qualité ensuite.
Bruit De Fond Devenant Token
- Les modèles de transcription apprennent à associer orodatage et spectres audio; les bruits de générique deviennent des tokens.
- Ainsi, silence + fond musical peut produire des tokens « abonnez‑vous » par ressemblance vectorielle.
