- Um resumo da situação atual para entender o R1, que apareceu de repente, e as mudanças rápidas como o o1 e o o3
Linha do tempo
- 12 de setembro de 2024: lançamento do o1-preview
- 5 de dezembro de 2024: lançamento da versão oficial do o1 e do o1-pro
- 20 de dezembro de 2024: anúncio do o3 (passou no ARC-AGI, ganhando atenção como “AGI”)
- 26 de dezembro de 2024: lançamento do DeepSeek V3
- 20 de janeiro de 2025: lançamento do DeepSeek R1 (desempenho semelhante ao o1, mas open source)
- 25 de janeiro de 2025: pesquisadores da Universidade de Hong Kong conseguem reproduzir os resultados do R1
- 25 de janeiro de 2025: anúncio do projeto open-r1, totalmente open source, que reproduz o R1 no Huggingface
- Para deixar claro
- o1, o3 e R1 são todos modelos de raciocínio (Reasoning)
- DeepSeek V3 é um LLM (modelo-base), e os modelos de raciocínio são criados por fine-tuning sobre ele
- ARC-AGI-1 é a avaliação mais simples e básica de inteligência fluida (fluid intelligence). Reprovar significa ser quase totalmente incapaz de se adaptar ou resolver problemas em situações desconhecidas
# Reasoning & Agents
Modelo de raciocínio != Agents
- Um modelo de raciocínio (Reasoning) é um modelo que passa por um processo de “pensar” antes de gerar uma resposta
- LLMs “pensam” gerando tokens
- Por isso, estamos treinando modelos para gerar muitos tokens, esperando que encontrem a resposta certa
- Um agente de IA (Agent) é definido por 2 coisas
- autonomia (agency) para tomar decisões e completar tarefas
- capacidade de interagir (Interact) com o mundo externo
- Um LLM ou modelo de raciocínio, por si só, apenas gera tokens, então não consegue executar essas duas funções
- É necessário software para tomar decisões de fato e fornecer capacidade de interação
- Agentes são sistemas de IAs. Uma combinação de vários modelos e software para que possam interagir autonomamente com o mundo. O mesmo vale para hardware.
O raciocínio é importante
- A razão de modelos de raciocínio serem confundidos com agentes é que, no momento, o raciocínio é o gargalo
- A capacidade de raciocínio é essencial para planejar tarefas, supervisionar, verificar e agir com inteligência
- Não é possível criar agentes sem capacidade de raciocínio, mas, quando os benchmarks de raciocínio saturarem, surgirão novos desafios
O raciocínio precisa ficar mais barato
- Agentes funcionam por horas, dias, ou até 24/7 sem parar
- Essa é a essência de agir de forma autônoma, e por isso os custos aumentam
- No momento, o R1 é cerca de 30 vezes mais barato que o o1, oferecendo desempenho semelhante
# Por que o R1 é importante
- Ele é importante por ser barato, open source e por ter validado desempenho semelhante ao o1 e ao o3
- Já havia algumas previsões, com base em documentos públicos, sobre como o o1 funcionava, e o paper público do R1 praticamente confirmou tudo isso. Então agora entendemos como o o1 escala para o o3 e o o4
- Além disso, por ser open source, qualquer pessoa no mundo pode colocar suas próprias ideias em prática
- Isso fica claro pela linha do tempo da última semana com pessoas reimplementando o R1 (algumas disseram tê-lo feito com US$ 30)
- Inovação acontece quando é possível iterar rápido e barato, e o R1 criou esse ambiente
- O mais importante é que o R1 mostrou que é possível atingir desempenho de raciocínio suficiente com uma abordagem simples de RL, em vez de ideias complexas como DPO e MCTS
# Tendências no avanço da IA
O pré-treinamento (Pretraining) chegou ao limite de escala
- Desde o GPT-4, começou a ficar claro que a antiga “lei de escala”, baseada em simplesmente aumentar dados e recursos computacionais, tem limites
- A avaliação é que, por causa da dificuldade de obter dados e de novas abordagens de raciocínio, ficou difícil obter grandes ganhos apenas com o método antigo
Lei de escala no tempo de inferência (Inference Time)
- Modelos de raciocínio como o o1 e o r1 tendem a ter desempenho melhor “quanto mais tempo pensam”
- Mas não estava claro exatamente como fazer mais computação para obter resultados melhores
- A suposição ingênua era que chain of thought (CoT) poderia funcionar, e que bastaria treinar o modelo para fazer CoT
- O problema era como encontrar, de forma eficiente, o caminho mais rápido até a solução
- Entropix é uma ideia nesse sentido, usando sinais internos do modelo para encontrar o caminho mais eficiente
- Também existiam métodos como Monte Carlo Tree Search (MCTS), que geram muitos caminhos, mas escolhem apenas um
- Acabou se descobrindo que CoT é o melhor
- O R1 está fazendo um simples chain of thought de linha única com RL aplicado
- É razoável supor que o o1 também esteja fazendo a mesma coisa
Modelos reduzidos (Down-Sized Models)
- Tudo começou com o GPT-4-turbo, depois vieram GPT-4o, a série Claude e outros LLMs. Todos foram ficando menores e mais baratos ao longo de 2024
- Como é preciso gerar muitos tokens para raciocinar, modelos menores calculam mais rápido e são mais eficientes
- “Modelo menor = mais inteligente”
Aprendizado por reforço (Reinforcement Learning)
- O R1 treinou o modelo para realizar CoT no momento do raciocínio usando uma abordagem simples de RL chamada GRPO (Group Rewards Policy Optimization)
- Não são necessários verificadores complexos nem LLM externo. Basta RL com uma função básica de recompensa para precisão e formato de saída
- R1-Zero é uma versão do R1 da DeepSeek que só faz GRPO e não dá suporte a outras funcionalidades
- Embora tenha precisão maior que o R1, ele alterna livremente entre idiomas como inglês e chinês, então em geral não é adequado para usuários comuns que não sejam multilíngues
- Por que o R1-Zero salta entre idiomas?
- Minha opinião é que isso acontece “porque cada idioma expressa certos tipos de conceitos de forma mais eficaz”
- Existe o meme “what’s the german word for [paragraph of text]?”
- Em 25 de janeiro de 2025, alguém demonstrou que “qualquer RL funciona”
- Tentaram GRPO, PPO e PRIME, e todos funcionaram bem
- O número mágico é 1.5B. Quando o modelo tem 1.5B (1,5 bilhão) de parâmetros ou mais, a capacidade de raciocínio emerge com qualquer técnica de RL aplicada
- Até onde isso vai escalar?
Destilação de modelos (Model Distillation)
- O R1 foi destilado (distilled) a partir de checkpoints anteriores dele mesmo
- Em geral, destilação significa que um modelo professor (teacher) gera dados de treino para um modelo aluno, assumindo normalmente que o professor é maior que o aluno
- O R1 usou checkpoints anteriores do mesmo modelo para gerar dados de treino para supervised fine-tuning (SFT)
- O modelo foi melhorado repetindo SFT e RL
- Até onde isso pode ir?
- Há muito tempo atrás (9 dias), surgiu a previsão de que o GPT5 existe e que o GPT4o é apenas uma destilação dele
- Este texto propõe a teoria de que OpenAI e Anthropic treinam modelos grandes, depois os destilam, e continuam repetindo um ciclo em que usam os modelos destilados para criar modelos ainda maiores
- Quero dizer que o paper do R1 em grande parte confirmou que isso é possível (e portanto é provável que esteja realmente acontecendo)
- Nesse caso, isso poderia continuar por muito tempo
- Observação: alguns experimentos sugerem que o modelo aluno pode superar o professor. Não está claro com que frequência isso acontece na prática
- Intuitivamente, a destilação pode ajudar o aluno a encontrar o sinal e convergir mais rápido
- Model collapse ainda é a maior preocupação, mas isso parece ser em grande parte um medo desnecessário
- O colapso de modelo certamente continua sendo possível, mas nunca é garantido, e também há caminhos na direção oposta em que o aluno supera o professor
# Perspectivas para 2025
- Situação atual:
- pré-treinamento está difícil (mas não morreu)
- escala de raciocínio
- downsizing dos modelos
- lei de escala do RL
- lei de escala por destilação de modelos
- Não parece que o ritmo de avanço da IA esteja desacelerando. Uma lei de escala desacelerou e outras 4 apareceram
- Essa tendência deve continuar acelerando por um tempo
Questão geopolítica: Distealing
- “Distealing” é uma palavra que inventei para “destilação não autorizada” de modelos
- Agora software é política, e no centro disso está a IA
- A IA parece estar sendo considerada em quase todos os eixos políticos, e o mais interessante é China vs. Estados Unidos
- Estratégia
- Estados Unidos: financiamento massivo. Jogar dinheiro no fogo da IA o mais rápido possível
- China: por causa de controles de exportação repressivos, mobilizar engenheiros e pesquisadores mais inteligentes para encontrar soluções mais baratas
- Europa: regulação ou IA open source, qualquer um dos dois serve
- Há controvérsia sobre se a DeepSeek fez destilação não autorizada (“distealing”) do o1, mas considerando as reproduções do R1, hoje é mais provável que ela tenha desenvolvido o R1 de forma independente
- Ainda assim, existe tensão pelo fato de um laboratório chinês ter ultrapassado em alta velocidade o melhor modelo da OpenAI
- Em breve (mesmo que ainda não agora), a capacidade da IA vai melhorar em ritmo exponencial
- Os impactos políticos e geopolíticos serão enormes
- Pelo contrário, quem trabalha com inteligência artificial deveria prestar mais atenção à política e manter a mente aberta sobre quais políticas são boas ou ruins
Conclusão
- O ponto mais importante é que o R1 traz clareza para partes que antes eram opacas
- Portanto, o futuro da IA ficou mais claro, e seu ritmo parece estar acelerando rapidamente
9 comentários
Era chamado de
distealing, então é difícil condenar isso agora; já na fase inicial do LLaMA 1 havia os modelos Alpaca e Vicuna, destilados do GPT, e hoje não existe nenhum frontier lab que não treine usando a saída de outros modelos.Na prática, a maioria dos modelos de fronteira atuais é basicamente um conjunto de genes de endogamia destilados do GPT, com RLHF ajustado ao gosto de cada laboratório.
O que mais deveria preocupar agora não é a destilação não autorizada da China nem a censura.
O chocante é que MLA, MTP, mixed precision framework e GRPO — a base da eficiência insana da DeepSeek — foram criados de forma totalmente independente por pessoas formadas 100% em universidades chinesas.
Nos EUA, já estão até falando em um segundo choque do Sputnik...
distealingnão seria o que você queria escrever comodistilling?Parece que o autor criou a palavra distealing para distinguir a destilação não autorizada de distilling, que significa destilação, usando um tipo de trocadilho por terem a mesma pronúncia (isso é mencionado no texto).
Obrigado pela explicação.
> Geopolítica: Distealing
> Questões geopolíticas: Distealing
> Eu cunhei esse termo, distealing, destilação não autorizada de modelos. Pode usar, é uma palavra divertida.
> "Distealing" é um termo que eu criei para a "destilação não autorizada" de modelos
Ah, então havia conteúdo no original. Obrigado.
Comentários do Hacker News
Sobre a alegação de que o R1 substituiu ideias complexas por aprendizado por reforço simples, na prática ele usou uma combinação de aprendizado por reforço e aprendizado supervisionado. É possível que os dados usados no aprendizado supervisionado tenham sido selecionados por humanos, e não gerados pelo modelo
O artigo tem muito exagero, o que dificulta confiar nele
Com o R1 aparecendo na mídia tradicional, isso gerou confusão e alarme. É difícil explicar que a China não está ameaçando os Estados Unidos
Foi levantada a questão de saber se a IA já está de fato raciocinando
A conclusão de que as capacidades da IA em breve vão aumentar exponencialmente carece de fundamento. Seria bom entender como o autor chegou a essa conclusão