IA Sob Controle - Inteligência Artificial

238: Por que a Hugging Face não quer ser um frontier lab, com Leandro von Werra

29 snips

Apr 1, 2026

Leandro von Werra, líder de pesquisa na Hugging Face com experiência em pré e pós-treinamento de modelos open source. Conversa sobre a transformação da Hugging Face em hub aberto, por que evitam ser um frontier lab e o foco em treinar modelos menores. Aborda infraestrutura de GPUs, gargalos em avaliação e dados, o avanço dos SmallLMs e o papel crescente de dados sintéticos.

Ask episode

AI Snips

Chapters

Books

Transcript

Episode notes

INSIGHT

Vantagem Competitiva De Equipes Pequenas

Pequenas equipes de pesquisa têm vantagem de uso de GPU por pesquisador e agilidade na experimentação.
Hugging Face tem ~96 nós H100 (~800 GPUs), dando cerca de 40 GPUs por pesquisador em times reduzidos.

INSIGHT

Dado Sintético É Parte Central Hoje

Dados sintéticos já dominam muitos passos de pós-treinamento e aparecem também no pré-treinamento de grandes laboratórios.
Interações em ambientes geram traces sintéticos úteis; prompts humanos muitas vezes são a única entrada manual.

ANECDOTE

Como Surgiu O Projeto SmallLM

SmallLM nasceu de experimentos com dados sintéticos (Cosmopedia) e combinações com dados da web (FineWeb).
Iterações geraram SmallLM1/2/3, culminando com um 3B que alcançou estado da arte para seu tamanho.

Get the Snipd Podcast app to discover more snips from this episode

Get the app