41 pontos por GN⁺ 2025-01-27 | 9 comentários | Compartilhar no WhatsApp
  • Um resumo da situação atual para entender o R1, que apareceu de repente, e as mudanças rápidas como o o1 e o o3

Linha do tempo

  • 12 de setembro de 2024: lançamento do o1-preview
  • 5 de dezembro de 2024: lançamento da versão oficial do o1 e do o1-pro
  • 20 de dezembro de 2024: anúncio do o3 (passou no ARC-AGI, ganhando atenção como “AGI”)
  • 26 de dezembro de 2024: lançamento do DeepSeek V3
  • 20 de janeiro de 2025: lançamento do DeepSeek R1 (desempenho semelhante ao o1, mas open source)
  • 25 de janeiro de 2025: pesquisadores da Universidade de Hong Kong conseguem reproduzir os resultados do R1
  • 25 de janeiro de 2025: anúncio do projeto open-r1, totalmente open source, que reproduz o R1 no Huggingface
  • Para deixar claro
    • o1, o3 e R1 são todos modelos de raciocínio (Reasoning)
    • DeepSeek V3 é um LLM (modelo-base), e os modelos de raciocínio são criados por fine-tuning sobre ele
    • ARC-AGI-1 é a avaliação mais simples e básica de inteligência fluida (fluid intelligence). Reprovar significa ser quase totalmente incapaz de se adaptar ou resolver problemas em situações desconhecidas

# Reasoning & Agents

Modelo de raciocínio != Agents

  • Um modelo de raciocínio (Reasoning) é um modelo que passa por um processo de “pensar” antes de gerar uma resposta
    • LLMs “pensam” gerando tokens
    • Por isso, estamos treinando modelos para gerar muitos tokens, esperando que encontrem a resposta certa
  • Um agente de IA (Agent) é definido por 2 coisas
    • autonomia (agency) para tomar decisões e completar tarefas
    • capacidade de interagir (Interact) com o mundo externo
  • Um LLM ou modelo de raciocínio, por si só, apenas gera tokens, então não consegue executar essas duas funções
    • É necessário software para tomar decisões de fato e fornecer capacidade de interação
  • Agentes são sistemas de IAs. Uma combinação de vários modelos e software para que possam interagir autonomamente com o mundo. O mesmo vale para hardware.

O raciocínio é importante

  • A razão de modelos de raciocínio serem confundidos com agentes é que, no momento, o raciocínio é o gargalo
  • A capacidade de raciocínio é essencial para planejar tarefas, supervisionar, verificar e agir com inteligência
  • Não é possível criar agentes sem capacidade de raciocínio, mas, quando os benchmarks de raciocínio saturarem, surgirão novos desafios

O raciocínio precisa ficar mais barato

  • Agentes funcionam por horas, dias, ou até 24/7 sem parar
  • Essa é a essência de agir de forma autônoma, e por isso os custos aumentam
  • No momento, o R1 é cerca de 30 vezes mais barato que o o1, oferecendo desempenho semelhante

# Por que o R1 é importante

  • Ele é importante por ser barato, open source e por ter validado desempenho semelhante ao o1 e ao o3
  • Já havia algumas previsões, com base em documentos públicos, sobre como o o1 funcionava, e o paper público do R1 praticamente confirmou tudo isso. Então agora entendemos como o o1 escala para o o3 e o o4
  • Além disso, por ser open source, qualquer pessoa no mundo pode colocar suas próprias ideias em prática
  • Isso fica claro pela linha do tempo da última semana com pessoas reimplementando o R1 (algumas disseram tê-lo feito com US$ 30)
  • Inovação acontece quando é possível iterar rápido e barato, e o R1 criou esse ambiente
  • O mais importante é que o R1 mostrou que é possível atingir desempenho de raciocínio suficiente com uma abordagem simples de RL, em vez de ideias complexas como DPO e MCTS

# Tendências no avanço da IA

O pré-treinamento (Pretraining) chegou ao limite de escala

  • Desde o GPT-4, começou a ficar claro que a antiga “lei de escala”, baseada em simplesmente aumentar dados e recursos computacionais, tem limites
  • A avaliação é que, por causa da dificuldade de obter dados e de novas abordagens de raciocínio, ficou difícil obter grandes ganhos apenas com o método antigo

Lei de escala no tempo de inferência (Inference Time)

  • Modelos de raciocínio como o o1 e o r1 tendem a ter desempenho melhor “quanto mais tempo pensam”
  • Mas não estava claro exatamente como fazer mais computação para obter resultados melhores
  • A suposição ingênua era que chain of thought (CoT) poderia funcionar, e que bastaria treinar o modelo para fazer CoT
  • O problema era como encontrar, de forma eficiente, o caminho mais rápido até a solução
    • Entropix é uma ideia nesse sentido, usando sinais internos do modelo para encontrar o caminho mais eficiente
    • Também existiam métodos como Monte Carlo Tree Search (MCTS), que geram muitos caminhos, mas escolhem apenas um
  • Acabou se descobrindo que CoT é o melhor
    • O R1 está fazendo um simples chain of thought de linha única com RL aplicado
    • É razoável supor que o o1 também esteja fazendo a mesma coisa

Modelos reduzidos (Down-Sized Models)

  • Tudo começou com o GPT-4-turbo, depois vieram GPT-4o, a série Claude e outros LLMs. Todos foram ficando menores e mais baratos ao longo de 2024
  • Como é preciso gerar muitos tokens para raciocinar, modelos menores calculam mais rápido e são mais eficientes
  • “Modelo menor = mais inteligente”

Aprendizado por reforço (Reinforcement Learning)

  • O R1 treinou o modelo para realizar CoT no momento do raciocínio usando uma abordagem simples de RL chamada GRPO (Group Rewards Policy Optimization)
  • Não são necessários verificadores complexos nem LLM externo. Basta RL com uma função básica de recompensa para precisão e formato de saída
  • R1-Zero é uma versão do R1 da DeepSeek que só faz GRPO e não dá suporte a outras funcionalidades
    • Embora tenha precisão maior que o R1, ele alterna livremente entre idiomas como inglês e chinês, então em geral não é adequado para usuários comuns que não sejam multilíngues
  • Por que o R1-Zero salta entre idiomas?
    • Minha opinião é que isso acontece “porque cada idioma expressa certos tipos de conceitos de forma mais eficaz”
    • Existe o meme “what’s the german word for [paragraph of text]?”
  • Em 25 de janeiro de 2025, alguém demonstrou que “qualquer RL funciona”
    • Tentaram GRPO, PPO e PRIME, e todos funcionaram bem
    • O número mágico é 1.5B. Quando o modelo tem 1.5B (1,5 bilhão) de parâmetros ou mais, a capacidade de raciocínio emerge com qualquer técnica de RL aplicada
  • Até onde isso vai escalar?

Destilação de modelos (Model Distillation)

  • O R1 foi destilado (distilled) a partir de checkpoints anteriores dele mesmo
  • Em geral, destilação significa que um modelo professor (teacher) gera dados de treino para um modelo aluno, assumindo normalmente que o professor é maior que o aluno
    • O R1 usou checkpoints anteriores do mesmo modelo para gerar dados de treino para supervised fine-tuning (SFT)
    • O modelo foi melhorado repetindo SFT e RL
  • Até onde isso pode ir?
  • Há muito tempo atrás (9 dias), surgiu a previsão de que o GPT5 existe e que o GPT4o é apenas uma destilação dele
    • Este texto propõe a teoria de que OpenAI e Anthropic treinam modelos grandes, depois os destilam, e continuam repetindo um ciclo em que usam os modelos destilados para criar modelos ainda maiores
    • Quero dizer que o paper do R1 em grande parte confirmou que isso é possível (e portanto é provável que esteja realmente acontecendo)
  • Nesse caso, isso poderia continuar por muito tempo
  • Observação: alguns experimentos sugerem que o modelo aluno pode superar o professor. Não está claro com que frequência isso acontece na prática
    • Intuitivamente, a destilação pode ajudar o aluno a encontrar o sinal e convergir mais rápido
    • Model collapse ainda é a maior preocupação, mas isso parece ser em grande parte um medo desnecessário
    • O colapso de modelo certamente continua sendo possível, mas nunca é garantido, e também há caminhos na direção oposta em que o aluno supera o professor

# Perspectivas para 2025

  • Situação atual:
    • pré-treinamento está difícil (mas não morreu)
    • escala de raciocínio
    • downsizing dos modelos
    • lei de escala do RL
    • lei de escala por destilação de modelos
  • Não parece que o ritmo de avanço da IA esteja desacelerando. Uma lei de escala desacelerou e outras 4 apareceram
  • Essa tendência deve continuar acelerando por um tempo

Questão geopolítica: Distealing

  • “Distealing” é uma palavra que inventei para “destilação não autorizada” de modelos
  • Agora software é política, e no centro disso está a IA
    • A IA parece estar sendo considerada em quase todos os eixos políticos, e o mais interessante é China vs. Estados Unidos
  • Estratégia
    • Estados Unidos: financiamento massivo. Jogar dinheiro no fogo da IA o mais rápido possível
    • China: por causa de controles de exportação repressivos, mobilizar engenheiros e pesquisadores mais inteligentes para encontrar soluções mais baratas
    • Europa: regulação ou IA open source, qualquer um dos dois serve
  • Há controvérsia sobre se a DeepSeek fez destilação não autorizada (“distealing”) do o1, mas considerando as reproduções do R1, hoje é mais provável que ela tenha desenvolvido o R1 de forma independente
    • Ainda assim, existe tensão pelo fato de um laboratório chinês ter ultrapassado em alta velocidade o melhor modelo da OpenAI
  • Em breve (mesmo que ainda não agora), a capacidade da IA vai melhorar em ritmo exponencial
    • Os impactos políticos e geopolíticos serão enormes
    • Pelo contrário, quem trabalha com inteligência artificial deveria prestar mais atenção à política e manter a mente aberta sobre quais políticas são boas ou ruins

Conclusão

  • O ponto mais importante é que o R1 traz clareza para partes que antes eram opacas
  • Portanto, o futuro da IA ficou mais claro, e seu ritmo parece estar acelerando rapidamente

9 comentários

 
mammal 2025-01-27

Era chamado de distealing, então é difícil condenar isso agora; já na fase inicial do LLaMA 1 havia os modelos Alpaca e Vicuna, destilados do GPT, e hoje não existe nenhum frontier lab que não treine usando a saída de outros modelos.

Na prática, a maioria dos modelos de fronteira atuais é basicamente um conjunto de genes de endogamia destilados do GPT, com RLHF ajustado ao gosto de cada laboratório.

 
mammal 2025-01-27

O que mais deveria preocupar agora não é a destilação não autorizada da China nem a censura.

O chocante é que MLA, MTP, mixed precision framework e GRPO — a base da eficiência insana da DeepSeek — foram criados de forma totalmente independente por pessoas formadas 100% em universidades chinesas.

Nos EUA, já estão até falando em um segundo choque do Sputnik...

 
luminance 2025-01-27

distealing não seria o que você queria escrever como distilling?

 
grogu 2025-01-27

Parece que o autor criou a palavra distealing para distinguir a destilação não autorizada de distilling, que significa destilação, usando um tipo de trocadilho por terem a mesma pronúncia (isso é mencionado no texto).

 
luminance 2025-01-27

Obrigado pela explicação.

 
savvykang 2025-01-27

> Geopolítica: Distealing
> Questões geopolíticas: Distealing

> Eu cunhei esse termo, distealing, destilação não autorizada de modelos. Pode usar, é uma palavra divertida.
> "Distealing" é um termo que eu criei para a "destilação não autorizada" de modelos

 
luminance 2025-01-27

Ah, então havia conteúdo no original. Obrigado.

 
GN⁺ 2025-01-27
Comentários do Hacker News
  • Sobre a alegação de que o R1 substituiu ideias complexas por aprendizado por reforço simples, na prática ele usou uma combinação de aprendizado por reforço e aprendizado supervisionado. É possível que os dados usados no aprendizado supervisionado tenham sido selecionados por humanos, e não gerados pelo modelo

    • Há tentativas de reproduzir o R1, e algumas afirmam que isso seria possível com US$ 30, mas isso pode se referir ao ajuste fino do R1, e não ao próprio R1
    • A Hugging Face está tentando reproduzir o R1, mas isso é um trabalho bastante grande e não algo que possa ser resolvido com US$ 30
  • O artigo tem muito exagero, o que dificulta confiar nele

    • Os benchmarks de vários modelos focam na precisão em matemática e programação, mas em certos casos de uso essas capacidades não são importantes. É difícil medir conceitos com benchmarks
    • Foi levantada a questão de se seria possível, por destilação, criar um modelo removendo os elementos de matemática e programação
  • Com o R1 aparecendo na mídia tradicional, isso gerou confusão e alarme. É difícil explicar que a China não está ameaçando os Estados Unidos

    • Sobre a conclusão de que as capacidades da IA vão aumentar exponencialmente, o único ponto de dados é que o R1, como modelo open source, alcançou um nível semelhante ao do o1. Esses são dois temas bastante não relacionados entre si
  • Foi levantada a questão de saber se a IA já está de fato raciocinando

    • O ARC-AGI é um benchmark simples para humanos, mas muito difícil para a IA. Há um equívoco de que resolvê-lo significaria que a IA pode fazer as mesmas coisas que os humanos
    • François Chollet, criador do ARC-AGI, explica como o ARC-AGI-1 era simples e o que significa resolvê-lo
    • Passar no ARC-AGI-1 indica que o sistema possui inteligência fluida não nula, mas não indica o nível de inteligência do sistema nem sua proximidade da inteligência humana
  • A conclusão de que as capacidades da IA em breve vão aumentar exponencialmente carece de fundamento. Seria bom entender como o autor chegou a essa conclusão