
DataGen #212 - BlaBlaCar : Déployer un projet GenAI qui rapporte 1 million par an
Jun 30, 2025
Raphaël Berly, Data Science Lead chez BlaBlaCar, explique comment son équipe a déployé un projet GenAI qui rapporte 1 million d'euros par an. Il révèle les défis de la modération de texte et la manière dont Sphinx, un outil de classification basé sur le machine learning, a été conçu pour optimiser ce processus. La discussion aborde également les méthodologies d'organisation et la nécessité de collaborations inter-équipes pour réussir un tel projet. Enfin, il partage les prochaines étapes et les ambitions d'amélioration de l'outil.
AI Snips
Chapters
Transcript
Episode notes
Le rôle clé de l'embedding
- Le texte est transformé en vecteur embedding qui représente son contenu.
- Ce vecteur est ensuite classifié par un modèle de machine learning pour catégoriser le texte.
Embedding comme interprétation textuelle
- L'embedding est la sortie de la brique d'interprétation d'un large language model.
- Il permet de manipuler facilement techniquement ce que le modèle comprend du texte.
Embeddings partagés transversaux
- Les embeddings sont génériques et peuvent servir à divers cas d'usage.
- BlaBlaCar stocke ces embeddings pour que toutes les équipes Data en bénéficient.
