Explicação sobre o R1 e todo o resto

(timkellogg.me)

41 pontos por GN⁺ 2025-01-27 | 9 comentários | Compartilhar no WhatsApp

Um resumo da situação atual para entender o R1, que apareceu de repente, e as mudanças rápidas como o o1 e o o3

Linha do tempo

12 de setembro de 2024: lançamento do o1-preview
5 de dezembro de 2024: lançamento da versão oficial do o1 e do o1-pro
20 de dezembro de 2024: anúncio do o3 (passou no ARC-AGI, ganhando atenção como “AGI”)
26 de dezembro de 2024: lançamento do DeepSeek V3
20 de janeiro de 2025: lançamento do DeepSeek R1 (desempenho semelhante ao o1, mas open source)
25 de janeiro de 2025: pesquisadores da Universidade de Hong Kong conseguem reproduzir os resultados do R1
25 de janeiro de 2025: anúncio do projeto open-r1, totalmente open source, que reproduz o R1 no Huggingface
Para deixar claro
- o1, o3 e R1 são todos modelos de raciocínio (Reasoning)
- DeepSeek V3 é um LLM (modelo-base), e os modelos de raciocínio são criados por fine-tuning sobre ele
- ARC-AGI-1 é a avaliação mais simples e básica de inteligência fluida (fluid intelligence). Reprovar significa ser quase totalmente incapaz de se adaptar ou resolver problemas em situações desconhecidas

# Reasoning & Agents

Modelo de raciocínio != Agents

Um modelo de raciocínio (Reasoning) é um modelo que passa por um processo de “pensar” antes de gerar uma resposta
- LLMs “pensam” gerando tokens
- Por isso, estamos treinando modelos para gerar muitos tokens, esperando que encontrem a resposta certa
Um agente de IA (Agent) é definido por 2 coisas
- autonomia (agency) para tomar decisões e completar tarefas
- capacidade de interagir (Interact) com o mundo externo
Um LLM ou modelo de raciocínio, por si só, apenas gera tokens, então não consegue executar essas duas funções
- É necessário software para tomar decisões de fato e fornecer capacidade de interação
Agentes são sistemas de IAs. Uma combinação de vários modelos e software para que possam interagir autonomamente com o mundo. O mesmo vale para hardware.

O raciocínio é importante

A razão de modelos de raciocínio serem confundidos com agentes é que, no momento, o raciocínio é o gargalo
A capacidade de raciocínio é essencial para planejar tarefas, supervisionar, verificar e agir com inteligência
Não é possível criar agentes sem capacidade de raciocínio, mas, quando os benchmarks de raciocínio saturarem, surgirão novos desafios

O raciocínio precisa ficar mais barato

Agentes funcionam por horas, dias, ou até 24/7 sem parar
Essa é a essência de agir de forma autônoma, e por isso os custos aumentam
No momento, o R1 é cerca de 30 vezes mais barato que o o1, oferecendo desempenho semelhante

# Por que o R1 é importante

Ele é importante por ser barato, open source e por ter validado desempenho semelhante ao o1 e ao o3
Já havia algumas previsões, com base em documentos públicos, sobre como o o1 funcionava, e o paper público do R1 praticamente confirmou tudo isso. Então agora entendemos como o o1 escala para o o3 e o o4
Além disso, por ser open source, qualquer pessoa no mundo pode colocar suas próprias ideias em prática
Isso fica claro pela linha do tempo da última semana com pessoas reimplementando o R1 (algumas disseram tê-lo feito com US$ 30)
Inovação acontece quando é possível iterar rápido e barato, e o R1 criou esse ambiente
O mais importante é que o R1 mostrou que é possível atingir desempenho de raciocínio suficiente com uma abordagem simples de RL, em vez de ideias complexas como DPO e MCTS

# Tendências no avanço da IA

O pré-treinamento (Pretraining) chegou ao limite de escala

Desde o GPT-4, começou a ficar claro que a antiga “lei de escala”, baseada em simplesmente aumentar dados e recursos computacionais, tem limites
A avaliação é que, por causa da dificuldade de obter dados e de novas abordagens de raciocínio, ficou difícil obter grandes ganhos apenas com o método antigo

Lei de escala no tempo de inferência (Inference Time)

Modelos de raciocínio como o o1 e o r1 tendem a ter desempenho melhor “quanto mais tempo pensam”
Mas não estava claro exatamente como fazer mais computação para obter resultados melhores
A suposição ingênua era que chain of thought (CoT) poderia funcionar, e que bastaria treinar o modelo para fazer CoT
O problema era como encontrar, de forma eficiente, o caminho mais rápido até a solução
- Entropix é uma ideia nesse sentido, usando sinais internos do modelo para encontrar o caminho mais eficiente
- Também existiam métodos como Monte Carlo Tree Search (MCTS), que geram muitos caminhos, mas escolhem apenas um
Acabou se descobrindo que CoT é o melhor
- O R1 está fazendo um simples chain of thought de linha única com RL aplicado
- É razoável supor que o o1 também esteja fazendo a mesma coisa

Modelos reduzidos (Down-Sized Models)

Tudo começou com o GPT-4-turbo, depois vieram GPT-4o, a série Claude e outros LLMs. Todos foram ficando menores e mais baratos ao longo de 2024
Como é preciso gerar muitos tokens para raciocinar, modelos menores calculam mais rápido e são mais eficientes
“Modelo menor = mais inteligente”

Aprendizado por reforço (Reinforcement Learning)

O R1 treinou o modelo para realizar CoT no momento do raciocínio usando uma abordagem simples de RL chamada GRPO (Group Rewards Policy Optimization)
Não são necessários verificadores complexos nem LLM externo. Basta RL com uma função básica de recompensa para precisão e formato de saída
R1-Zero é uma versão do R1 da DeepSeek que só faz GRPO e não dá suporte a outras funcionalidades
- Embora tenha precisão maior que o R1, ele alterna livremente entre idiomas como inglês e chinês, então em geral não é adequado para usuários comuns que não sejam multilíngues
Por que o R1-Zero salta entre idiomas?
- Minha opinião é que isso acontece “porque cada idioma expressa certos tipos de conceitos de forma mais eficaz”
- Existe o meme “what’s the german word for [paragraph of text]?”
Em 25 de janeiro de 2025, alguém demonstrou que “qualquer RL funciona”
- Tentaram GRPO, PPO e PRIME, e todos funcionaram bem
- O número mágico é 1.5B. Quando o modelo tem 1.5B (1,5 bilhão) de parâmetros ou mais, a capacidade de raciocínio emerge com qualquer técnica de RL aplicada
Até onde isso vai escalar?

Destilação de modelos (Model Distillation)

O R1 foi destilado (distilled) a partir de checkpoints anteriores dele mesmo
Em geral, destilação significa que um modelo professor (teacher) gera dados de treino para um modelo aluno, assumindo normalmente que o professor é maior que o aluno
- O R1 usou checkpoints anteriores do mesmo modelo para gerar dados de treino para supervised fine-tuning (SFT)
- O modelo foi melhorado repetindo SFT e RL
Até onde isso pode ir?
Há muito tempo atrás (9 dias), surgiu a previsão de que o GPT5 existe e que o GPT4o é apenas uma destilação dele
- Este texto propõe a teoria de que OpenAI e Anthropic treinam modelos grandes, depois os destilam, e continuam repetindo um ciclo em que usam os modelos destilados para criar modelos ainda maiores
- Quero dizer que o paper do R1 em grande parte confirmou que isso é possível (e portanto é provável que esteja realmente acontecendo)
Nesse caso, isso poderia continuar por muito tempo
Observação: alguns experimentos sugerem que o modelo aluno pode superar o professor. Não está claro com que frequência isso acontece na prática
- Intuitivamente, a destilação pode ajudar o aluno a encontrar o sinal e convergir mais rápido
- Model collapse ainda é a maior preocupação, mas isso parece ser em grande parte um medo desnecessário
- O colapso de modelo certamente continua sendo possível, mas nunca é garantido, e também há caminhos na direção oposta em que o aluno supera o professor

# Perspectivas para 2025

Situação atual:
- pré-treinamento está difícil (mas não morreu)
- escala de raciocínio
- downsizing dos modelos
- lei de escala do RL
- lei de escala por destilação de modelos
Não parece que o ritmo de avanço da IA esteja desacelerando. Uma lei de escala desacelerou e outras 4 apareceram
Essa tendência deve continuar acelerando por um tempo

Questão geopolítica: Distealing

“Distealing” é uma palavra que inventei para “destilação não autorizada” de modelos
Agora software é política, e no centro disso está a IA
- A IA parece estar sendo considerada em quase todos os eixos políticos, e o mais interessante é China vs. Estados Unidos
Estratégia
- Estados Unidos: financiamento massivo. Jogar dinheiro no fogo da IA o mais rápido possível
- China: por causa de controles de exportação repressivos, mobilizar engenheiros e pesquisadores mais inteligentes para encontrar soluções mais baratas
- Europa: regulação ou IA open source, qualquer um dos dois serve
Há controvérsia sobre se a DeepSeek fez destilação não autorizada (“distealing”) do o1, mas considerando as reproduções do R1, hoje é mais provável que ela tenha desenvolvido o R1 de forma independente
- Ainda assim, existe tensão pelo fato de um laboratório chinês ter ultrapassado em alta velocidade o melhor modelo da OpenAI
Em breve (mesmo que ainda não agora), a capacidade da IA vai melhorar em ritmo exponencial
- Os impactos políticos e geopolíticos serão enormes
- Pelo contrário, quem trabalha com inteligência artificial deveria prestar mais atenção à política e manter a mente aberta sobre quais políticas são boas ou ruins

Conclusão

O ponto mais importante é que o R1 traz clareza para partes que antes eram opacas
Portanto, o futuro da IA ficou mais claro, e seu ritmo parece estar acelerando rapidamente

9 comentários

xguru 2025-02-02

mammal 2025-01-27

Era chamado de distealing, então é difícil condenar isso agora; já na fase inicial do LLaMA 1 havia os modelos Alpaca e Vicuna, destilados do GPT, e hoje não existe nenhum frontier lab que não treine usando a saída de outros modelos.

Na prática, a maioria dos modelos de fronteira atuais é basicamente um conjunto de genes de endogamia destilados do GPT, com RLHF ajustado ao gosto de cada laboratório.

mammal 2025-01-27

O que mais deveria preocupar agora não é a destilação não autorizada da China nem a censura.

O chocante é que MLA, MTP, mixed precision framework e GRPO — a base da eficiência insana da DeepSeek — foram criados de forma totalmente independente por pessoas formadas 100% em universidades chinesas.

Nos EUA, já estão até falando em um segundo choque do Sputnik...

luminance 2025-01-27

distealing não seria o que você queria escrever como distilling?

grogu 2025-01-27

Parece que o autor criou a palavra distealing para distinguir a destilação não autorizada de distilling, que significa destilação, usando um tipo de trocadilho por terem a mesma pronúncia (isso é mencionado no texto).

luminance 2025-01-27

Obrigado pela explicação.

savvykang 2025-01-27

> Geopolítica: Distealing
> Questões geopolíticas: Distealing

> Eu cunhei esse termo, distealing, destilação não autorizada de modelos. Pode usar, é uma palavra divertida.
> "Distealing" é um termo que eu criei para a "destilação não autorizada" de modelos

luminance 2025-01-27

Ah, então havia conteúdo no original. Obrigado.

GN⁺ 2025-01-27

Comentários do Hacker News

Sobre a alegação de que o R1 substituiu ideias complexas por aprendizado por reforço simples, na prática ele usou uma combinação de aprendizado por reforço e aprendizado supervisionado. É possível que os dados usados no aprendizado supervisionado tenham sido selecionados por humanos, e não gerados pelo modelo
- Há tentativas de reproduzir o R1, e algumas afirmam que isso seria possível com US$ 30, mas isso pode se referir ao ajuste fino do R1, e não ao próprio R1
- A Hugging Face está tentando reproduzir o R1, mas isso é um trabalho bastante grande e não algo que possa ser resolvido com US$ 30
O artigo tem muito exagero, o que dificulta confiar nele
- Os benchmarks de vários modelos focam na precisão em matemática e programação, mas em certos casos de uso essas capacidades não são importantes. É difícil medir conceitos com benchmarks
- Foi levantada a questão de se seria possível, por destilação, criar um modelo removendo os elementos de matemática e programação
Com o R1 aparecendo na mídia tradicional, isso gerou confusão e alarme. É difícil explicar que a China não está ameaçando os Estados Unidos
- Sobre a conclusão de que as capacidades da IA vão aumentar exponencialmente, o único ponto de dados é que o R1, como modelo open source, alcançou um nível semelhante ao do o1. Esses são dois temas bastante não relacionados entre si
Foi levantada a questão de saber se a IA já está de fato raciocinando
- O ARC-AGI é um benchmark simples para humanos, mas muito difícil para a IA. Há um equívoco de que resolvê-lo significaria que a IA pode fazer as mesmas coisas que os humanos
- François Chollet, criador do ARC-AGI, explica como o ARC-AGI-1 era simples e o que significa resolvê-lo
- Passar no ARC-AGI-1 indica que o sistema possui inteligência fluida não nula, mas não indica o nível de inteligência do sistema nem sua proximidade da inteligência humana
A conclusão de que as capacidades da IA em breve vão aumentar exponencialmente carece de fundamento. Seria bom entender como o autor chegou a essa conclusão

Explicação sobre o R1 e todo o resto

Linha do tempo

# Reasoning & Agents

Modelo de raciocínio != Agents

O raciocínio é importante

O raciocínio precisa ficar mais barato

# Por que o R1 é importante

# Tendências no avanço da IA

O pré-treinamento (Pretraining) chegou ao limite de escala

Lei de escala no tempo de inferência (Inference Time)

Modelos reduzidos (Down-Sized Models)

Aprendizado por reforço (Reinforcement Learning)

Destilação de modelos (Model Distillation)

# Perspectivas para 2025

Questão geopolítica: Distealing

Conclusão

Leituras relacionadas

9 comentários

Comentários do Hacker News