Underscore_

Les méthodes inavouables des géants de l'IA — Jean‑Louis Quéguiner

43 snips
Feb 12, 2026
Jean‑Louis Quéguiner, entrepreneur spécialisé en reconnaissance vocale et gestion de datasets. Il décrypte les signes techniques du pillage de contenu sur YouTube et réseaux sociaux. Il explique les stratégies de collecte de données, le marché des datasets annotés et les enjeux juridiques et économiques. Il aborde aussi les asymétries linguistiques et l’importance du hardware dans la course à la donnée.
Ask episode
AI Snips
Chapters
Transcript
Episode notes
INSIGHT

Hallucinations De Sous‑Titres Indiquent Pillage

  • Les sous-titres automatiques montrent des « hallucinations » récurrentes comme « abonnez‑vous », signe d'un entraînement sur YouTube.
  • Ces artefacts révèlent que des modèles de transcription ont appris l'orodatage et le bruit de fond des vidéos scrappées.
INSIGHT

Trinité Data: Quantité, Langues, Qualité

  • Jean‑Louis explique que les labs cherchent profondeur, diversité linguistique et qualité des données.
  • Ils pillent social media et vidéos pour augmenter la quantité puis retravaillent la qualité ensuite.
INSIGHT

Bruit De Fond Devenant Token

  • Les modèles de transcription apprennent à associer orodatage et spectres audio; les bruits de générique deviennent des tokens.
  • Ainsi, silence + fond musical peut produire des tokens « abonnez‑vous » par ressemblance vectorielle.
Get the Snipd Podcast app to discover more snips from this episode
Get the app