Análise do R1-Zero e do R1 da DeepSeek
(arcprize.org)- A ARC Prize Foundation tem como objetivo definir, medir e incentivar novas ideias para AGI (inteligência artificial geral)
- A AGI ainda não foi alcançada, e a simples expansão do pré-treinamento de LLMs (grandes modelos de linguagem) não é a solução
- Entre 2023 e 2024, cerca de US$ 20 bilhões foram investidos em startups de LLM, enquanto apenas cerca de US$ 200 milhões foram investidos em startups de AGI
Análise do R1-Zero e do R1 da DeepSeek
- Os sistemas R1-Zero e R1 anunciados pela DeepSeek estão recebendo grande atenção por terem mostrado resultados próximos ao nível do sistema o1 da OpenAI
- Tanto o R1-Zero quanto o R1 registraram pontuações de cerca de 15~20% no ARC-AGI-1
- É uma pontuação muito superior aos 5% do GPT-4o
- Embora a corrente principal recente da indústria de IA tenha se concentrado na simples expansão de LLMs (grandes modelos de linguagem), entende-se que isso não é uma solução direta para alcançar a AGI
- Por meio do benchmark ARC-AGI-1, a ARC Prize Foundation incentiva pesquisas em sistemas de IA capazes de se adaptar mesmo sem terem sido treinados em novos problemas
O R1-Zero é mais importante que o R1
- Os resultados de pesquisa da DeepSeek levaram ao surgimento do R1-Zero e do R1
- R1-Zero, R1 e o o1 (low compute) da OpenAI registraram pontuações semelhantes de 15~20% no ARC-AGI-1
- O sistema o3, divulgado pela OpenAI no fim de 2024, elevou a pontuação no ARC-AGI-1 para até 88%, mostrando capacidade de resolver novos problemas de forma adaptativa
- No entanto, o o3 ainda tem muitos aspectos não públicos, o que dificulta para os pesquisadores entenderem os detalhes técnicos
- O R1-Zero é considerado mais valioso para o futuro do que o R1 por não ter passado por rotulagem humana direta (SFT)
O R1-Zero elimina o gargalo humano
-
Os modelos de raciocínio existentes eram treinados combinando rotulagem humana (SFT) ou recompensa de máquina (RL) para o processo de resolução de problemas (Chain-of-Thought, doravante CoT)
-
O R1-Zero aprende CoT sem SFT, ou seja, sem rótulos de especialistas humanos, usando apenas aprendizado por reforço (RL)
-
No ARC-AGI-1, o R1-Zero obteve 14% e o R1 15%, mostrando desempenho quase idêntico
-
Em outros benchmarks, como o MATH AIME 2024, os resultados do R1-Zero e do R1 também foram parecidos
-
Havia preocupações com mistura de idiomas e problemas de legibilidade, mas nos testes reais ele mostrou bom funcionamento nos domínios de matemática e programação, sem grande incoerência
-
As principais implicações disso são as seguintes
- Mesmo sem rotulagem humana, é possível obter raciocínio preciso e compreensível em domínios específicos
- O R1-Zero pode criar, apenas com aprendizado por reforço, sua própria representação de tokens específica de domínio (DSL)
- O SFT ainda pode ser necessário para ampliar o escopo do raciocínio
-
Em última instância, o R1-Zero mostra a possibilidade de escalabilidade de um "gargalo sem humanos", no qual ele próprio pode gerar dados de treinamento sem dependência humana
-
Abaixo está uma descrição resumida das pontuações, média de tokens e custo de inferência de vários sistemas no ARC-AGI-1
- r1-zero: 14%, sem SFT, sem busca sequencial de raciocínio, média de 11K tokens, custo de cerca de $0.11
- r1: 15.8%, com SFT, sem busca sequencial de raciocínio, média de 6K tokens, custo de cerca de $0.06
- o1(low): 20.5%, com SFT, sem busca sequencial de raciocínio, média de 7K tokens, custo de cerca de $0.43
- o1(med): 31%, com SFT, sem busca sequencial de raciocínio, média de 13K tokens, custo de cerca de $0.79
- o1(high): 35%, com SFT, sem busca sequencial de raciocínio, média de 22K tokens, custo de cerca de $1.31
- o3(low): 75.7%, com SFT, usando busca e amostragem, média de 335K tokens, custo de cerca de $20
- o3(high): 87.5%, com SFT, usando busca e amostragem, média de 57M tokens, custo de cerca de $3,400
O custo da confiabilidade
- A grande mudança atual no mercado de IA é a percepção de que "ao gastar mais, é possível aumentar a precisão e a confiabilidade"
- Além disso, a tendência é de deslocamento do peso dos custos de treinamento para os custos de inferência
- Ao investir muitos recursos computacionais na etapa de inferência, é possível obter resultados mais precisos e estáveis
- A maioria das empresas não conseguiu adotar automação em larga escala por causa dos problemas de confiabilidade dos sistemas de IA
- Há a perspectiva de que os avanços na área de ARC-AGI aumentem a confiabilidade de agentes de IA, e Anthropic, OpenAI, Apple e outras também estão preparando serviços baseados em agentes
- Os usuários tenderão a pagar de bom grado mais para obter o nível de precisão necessário
- Portanto, espera-se que a demanda por inferência de IA aumente muito, o que levará a um crescimento da demanda por recursos computacionais
Inferência é aprendizado
- Antes, coletavam-se grandes volumes de dados ou geravam-se dados sintéticos a partir de LLMs existentes para uso no treinamento
- Agora, durante o processo de inferência, usuários ou sistemas podem efetivamente gerar novos dados válidos
- Isso representa uma nova mudança econômica em que "inferência também é aprendizado"
- Modelos de IA com muitos usuários passam a coletar mais dados de inferência, e isso por si só leva à melhoria do modelo
- Se até o processo de SFT (rotulagem humana) se tornar desnecessário, será possível um aprendizado eficiente mesmo com sistemas que simplesmente repetem busca, síntese e verificação com grande investimento de custo
Conclusão
- À medida que a demanda por inferência em sistemas de IA aumenta, parece provável que a reavaliação do mercado continue ocorrendo
- Com o surgimento do sistema open source R1, que combina a abordagem CoT com técnicas de busca (
search), espera-se que mais pesquisadores e desenvolvedores possam testar os limites e acelerar a inovação - A divulgação do R1-Zero e do R1 será uma grande contribuição para o avanço da IA no mundo todo
- Várias equipes já demonstram a intenção de usar sistemas como o R1 com foco no ARC Prize 2025, o que aumenta a expectativa sobre os resultados futuros
- O R1 divulgado pela DeepSeek é avaliado positivamente por contribuir para o progresso científico ao apresentar pistas importantes no caminho rumo à AGI
1 comentários
Comentários do Hacker News
Desenvolvedores de sistemas de IA veem a possibilidade de mudanças econômicas com a geração de novos dados. Os clientes podem arcar com o custo de gerar dados para melhorar a qualidade dos modelos
Talvez não seja necessário melhorar o modelo base, e um modelo geral já possa ser suficiente
O sistema o3 mostra a primeira implementação prática de um computador que se adapta a novos problemas
Há a alegação de eliminar o gargalo humano, mas fora da matemática e da ciência da computação, é difícil definir recompensas verificáveis na maioria das áreas
Duas grandes mudanças estão acontecendo na economia da IA
O o3 marcou 75% no AGI-1, enquanto o R1 e o o1 ficaram em 25%
A migração de muito da computação para a inferência tem grande impacto nos investimentos atuais em IA
Mike, da Baseten, disse ter orgulho de apoiar esse trabalho
O R1-Zero mostra um possível regime de escalabilidade sem gargalo humano
O R1 apresenta excelente desempenho em custo-benefício
Prevê-se que o futuro dos LLMs esteja em apps personalizados e individuais