Análise do R1-Zero e do R1 da DeepSeek

(arcprize.org)

5 pontos por GN⁺ 2025-01-30 | 1 comentários | Compartilhar no WhatsApp

A ARC Prize Foundation tem como objetivo definir, medir e incentivar novas ideias para AGI (inteligência artificial geral)
A AGI ainda não foi alcançada, e a simples expansão do pré-treinamento de LLMs (grandes modelos de linguagem) não é a solução
Entre 2023 e 2024, cerca de US$ 20 bilhões foram investidos em startups de LLM, enquanto apenas cerca de US$ 200 milhões foram investidos em startups de AGI

Análise do R1-Zero e do R1 da DeepSeek

Os sistemas R1-Zero e R1 anunciados pela DeepSeek estão recebendo grande atenção por terem mostrado resultados próximos ao nível do sistema o1 da OpenAI
Tanto o R1-Zero quanto o R1 registraram pontuações de cerca de 15~20% no ARC-AGI-1
É uma pontuação muito superior aos 5% do GPT-4o
Embora a corrente principal recente da indústria de IA tenha se concentrado na simples expansão de LLMs (grandes modelos de linguagem), entende-se que isso não é uma solução direta para alcançar a AGI
Por meio do benchmark ARC-AGI-1, a ARC Prize Foundation incentiva pesquisas em sistemas de IA capazes de se adaptar mesmo sem terem sido treinados em novos problemas

O R1-Zero é mais importante que o R1

Os resultados de pesquisa da DeepSeek levaram ao surgimento do R1-Zero e do R1
R1-Zero, R1 e o o1 (low compute) da OpenAI registraram pontuações semelhantes de 15~20% no ARC-AGI-1
O sistema o3, divulgado pela OpenAI no fim de 2024, elevou a pontuação no ARC-AGI-1 para até 88%, mostrando capacidade de resolver novos problemas de forma adaptativa
No entanto, o o3 ainda tem muitos aspectos não públicos, o que dificulta para os pesquisadores entenderem os detalhes técnicos
O R1-Zero é considerado mais valioso para o futuro do que o R1 por não ter passado por rotulagem humana direta (SFT)

O R1-Zero elimina o gargalo humano

Os modelos de raciocínio existentes eram treinados combinando rotulagem humana (SFT) ou recompensa de máquina (RL) para o processo de resolução de problemas (Chain-of-Thought, doravante CoT)
O R1-Zero aprende CoT sem SFT, ou seja, sem rótulos de especialistas humanos, usando apenas aprendizado por reforço (RL)
No ARC-AGI-1, o R1-Zero obteve 14% e o R1 15%, mostrando desempenho quase idêntico
Em outros benchmarks, como o MATH AIME 2024, os resultados do R1-Zero e do R1 também foram parecidos
Havia preocupações com mistura de idiomas e problemas de legibilidade, mas nos testes reais ele mostrou bom funcionamento nos domínios de matemática e programação, sem grande incoerência
As principais implicações disso são as seguintes
- Mesmo sem rotulagem humana, é possível obter raciocínio preciso e compreensível em domínios específicos
- O R1-Zero pode criar, apenas com aprendizado por reforço, sua própria representação de tokens específica de domínio (DSL)
- O SFT ainda pode ser necessário para ampliar o escopo do raciocínio
Em última instância, o R1-Zero mostra a possibilidade de escalabilidade de um "gargalo sem humanos", no qual ele próprio pode gerar dados de treinamento sem dependência humana
Abaixo está uma descrição resumida das pontuações, média de tokens e custo de inferência de vários sistemas no ARC-AGI-1
- r1-zero: 14%, sem SFT, sem busca sequencial de raciocínio, média de 11K tokens, custo de cerca de $0.11
- r1: 15.8%, com SFT, sem busca sequencial de raciocínio, média de 6K tokens, custo de cerca de $0.06
- o1(low): 20.5%, com SFT, sem busca sequencial de raciocínio, média de 7K tokens, custo de cerca de $0.43
- o1(med): 31%, com SFT, sem busca sequencial de raciocínio, média de 13K tokens, custo de cerca de $0.79
- o1(high): 35%, com SFT, sem busca sequencial de raciocínio, média de 22K tokens, custo de cerca de $1.31
- o3(low): 75.7%, com SFT, usando busca e amostragem, média de 335K tokens, custo de cerca de $20
- o3(high): 87.5%, com SFT, usando busca e amostragem, média de 57M tokens, custo de cerca de $3,400

O custo da confiabilidade

A grande mudança atual no mercado de IA é a percepção de que "ao gastar mais, é possível aumentar a precisão e a confiabilidade"
Além disso, a tendência é de deslocamento do peso dos custos de treinamento para os custos de inferência
Ao investir muitos recursos computacionais na etapa de inferência, é possível obter resultados mais precisos e estáveis
A maioria das empresas não conseguiu adotar automação em larga escala por causa dos problemas de confiabilidade dos sistemas de IA
Há a perspectiva de que os avanços na área de ARC-AGI aumentem a confiabilidade de agentes de IA, e Anthropic, OpenAI, Apple e outras também estão preparando serviços baseados em agentes
Os usuários tenderão a pagar de bom grado mais para obter o nível de precisão necessário
Portanto, espera-se que a demanda por inferência de IA aumente muito, o que levará a um crescimento da demanda por recursos computacionais

Inferência é aprendizado

Antes, coletavam-se grandes volumes de dados ou geravam-se dados sintéticos a partir de LLMs existentes para uso no treinamento
Agora, durante o processo de inferência, usuários ou sistemas podem efetivamente gerar novos dados válidos
Isso representa uma nova mudança econômica em que "inferência também é aprendizado"
Modelos de IA com muitos usuários passam a coletar mais dados de inferência, e isso por si só leva à melhoria do modelo
Se até o processo de SFT (rotulagem humana) se tornar desnecessário, será possível um aprendizado eficiente mesmo com sistemas que simplesmente repetem busca, síntese e verificação com grande investimento de custo

Conclusão

À medida que a demanda por inferência em sistemas de IA aumenta, parece provável que a reavaliação do mercado continue ocorrendo
Com o surgimento do sistema open source R1, que combina a abordagem CoT com técnicas de busca (search), espera-se que mais pesquisadores e desenvolvedores possam testar os limites e acelerar a inovação
A divulgação do R1-Zero e do R1 será uma grande contribuição para o avanço da IA no mundo todo
Várias equipes já demonstram a intenção de usar sistemas como o R1 com foco no ARC Prize 2025, o que aumenta a expectativa sobre os resultados futuros
O R1 divulgado pela DeepSeek é avaliado positivamente por contribuir para o progresso científico ao apresentar pistas importantes no caminho rumo à AGI

1 comentários

GN⁺ 2025-01-30

Comentários do Hacker News

Desenvolvedores de sistemas de IA veem a possibilidade de mudanças econômicas com a geração de novos dados. Os clientes podem arcar com o custo de gerar dados para melhorar a qualidade dos modelos
- No entanto, existe ceticismo sobre se esses dados são realmente de alta qualidade
- Os modelos SOTA atuais ainda estão no nível do GPT-4, mas podem avançar mais nos próximos 2 a 3 anos
- Usar modelos de raciocínio para gerar dados e treinar com eles modelos sem raciocínio parece uma ideia promissora
- Porém, ainda não se sabe o quão bem o raciocínio pode ser incorporado aos pesos do modelo
- Há quem diga que a OpenAI já deveria ter treinado novos modelos usando dados de treino do o3
Talvez não seja necessário melhorar o modelo base, e um modelo geral já possa ser suficiente
- O importante é reduzir o preço dos modelos de raciocínio e melhorar sua qualidade
O sistema o3 mostra a primeira implementação prática de um computador que se adapta a novos problemas
- Porém, a OpenAI anunciou que treinou o o3 com 75% do conjunto público de treinamento, e a contribuição do desempenho com os dados ARC-AGI ainda não foi testada
Há a alegação de eliminar o gargalo humano, mas fora da matemática e da ciência da computação, é difícil definir recompensas verificáveis na maioria das áreas
Duas grandes mudanças estão acontecendo na economia da IA
- É possível pagar mais para obter maior precisão e confiabilidade
- Os custos estão migrando do treinamento para a inferência
- Isso aumentará a demanda por inferência e, por consequência, a demanda por computação
O o3 marcou 75% no AGI-1, enquanto o R1 e o o1 ficaram em 25%
A migração de muito da computação para a inferência tem grande impacto nos investimentos atuais em IA
- É uma má notícia para a NVDA, e soluções centradas em inferência têm melhor viabilidade econômica
Mike, da Baseten, disse ter orgulho de apoiar esse trabalho
O R1-Zero mostra um possível regime de escalabilidade sem gargalo humano
- No entanto, há dúvidas sobre se a abordagem de RL ainda exige muitos dados humanos
O R1 apresenta excelente desempenho em custo-benefício
- Parece promissor usar o R1 como gerador de dados para problemas complexos
Prevê-se que o futuro dos LLMs esteja em apps personalizados e individuais
- Você diz a um agente de IA qual app deseja e quais são os requisitos, e ele constrói tudo, do backend ao frontend
- Testa o software, corrige erros e faz o deploy em produção
- Os LLMs atuais ainda não são perfeitos, mas já existem sistemas e fluxos de trabalho que executam e compilam código automaticamente, além de retornar os erros ao LLM como feedback

Análise do R1-Zero e do R1 da DeepSeek

Análise do R1-Zero e do R1 da DeepSeek

O R1-Zero é mais importante que o R1

O R1-Zero elimina o gargalo humano

O custo da confiabilidade

Inferência é aprendizado

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News