5 pontos por GN⁺ 2025-01-30 | 1 comentários | Compartilhar no WhatsApp
  • A ARC Prize Foundation tem como objetivo definir, medir e incentivar novas ideias para AGI (inteligência artificial geral)
  • A AGI ainda não foi alcançada, e a simples expansão do pré-treinamento de LLMs (grandes modelos de linguagem) não é a solução
  • Entre 2023 e 2024, cerca de US$ 20 bilhões foram investidos em startups de LLM, enquanto apenas cerca de US$ 200 milhões foram investidos em startups de AGI

Análise do R1-Zero e do R1 da DeepSeek

  • Os sistemas R1-Zero e R1 anunciados pela DeepSeek estão recebendo grande atenção por terem mostrado resultados próximos ao nível do sistema o1 da OpenAI
  • Tanto o R1-Zero quanto o R1 registraram pontuações de cerca de 15~20% no ARC-AGI-1
  • É uma pontuação muito superior aos 5% do GPT-4o
  • Embora a corrente principal recente da indústria de IA tenha se concentrado na simples expansão de LLMs (grandes modelos de linguagem), entende-se que isso não é uma solução direta para alcançar a AGI
  • Por meio do benchmark ARC-AGI-1, a ARC Prize Foundation incentiva pesquisas em sistemas de IA capazes de se adaptar mesmo sem terem sido treinados em novos problemas

O R1-Zero é mais importante que o R1

  • Os resultados de pesquisa da DeepSeek levaram ao surgimento do R1-Zero e do R1
  • R1-Zero, R1 e o o1 (low compute) da OpenAI registraram pontuações semelhantes de 15~20% no ARC-AGI-1
  • O sistema o3, divulgado pela OpenAI no fim de 2024, elevou a pontuação no ARC-AGI-1 para até 88%, mostrando capacidade de resolver novos problemas de forma adaptativa
  • No entanto, o o3 ainda tem muitos aspectos não públicos, o que dificulta para os pesquisadores entenderem os detalhes técnicos
  • O R1-Zero é considerado mais valioso para o futuro do que o R1 por não ter passado por rotulagem humana direta (SFT)

O R1-Zero elimina o gargalo humano

  • Os modelos de raciocínio existentes eram treinados combinando rotulagem humana (SFT) ou recompensa de máquina (RL) para o processo de resolução de problemas (Chain-of-Thought, doravante CoT)

  • O R1-Zero aprende CoT sem SFT, ou seja, sem rótulos de especialistas humanos, usando apenas aprendizado por reforço (RL)

  • No ARC-AGI-1, o R1-Zero obteve 14% e o R1 15%, mostrando desempenho quase idêntico

  • Em outros benchmarks, como o MATH AIME 2024, os resultados do R1-Zero e do R1 também foram parecidos

  • Havia preocupações com mistura de idiomas e problemas de legibilidade, mas nos testes reais ele mostrou bom funcionamento nos domínios de matemática e programação, sem grande incoerência

  • As principais implicações disso são as seguintes

    • Mesmo sem rotulagem humana, é possível obter raciocínio preciso e compreensível em domínios específicos
    • O R1-Zero pode criar, apenas com aprendizado por reforço, sua própria representação de tokens específica de domínio (DSL)
    • O SFT ainda pode ser necessário para ampliar o escopo do raciocínio
  • Em última instância, o R1-Zero mostra a possibilidade de escalabilidade de um "gargalo sem humanos", no qual ele próprio pode gerar dados de treinamento sem dependência humana

  • Abaixo está uma descrição resumida das pontuações, média de tokens e custo de inferência de vários sistemas no ARC-AGI-1

    • r1-zero: 14%, sem SFT, sem busca sequencial de raciocínio, média de 11K tokens, custo de cerca de $0.11
    • r1: 15.8%, com SFT, sem busca sequencial de raciocínio, média de 6K tokens, custo de cerca de $0.06
    • o1(low): 20.5%, com SFT, sem busca sequencial de raciocínio, média de 7K tokens, custo de cerca de $0.43
    • o1(med): 31%, com SFT, sem busca sequencial de raciocínio, média de 13K tokens, custo de cerca de $0.79
    • o1(high): 35%, com SFT, sem busca sequencial de raciocínio, média de 22K tokens, custo de cerca de $1.31
    • o3(low): 75.7%, com SFT, usando busca e amostragem, média de 335K tokens, custo de cerca de $20
    • o3(high): 87.5%, com SFT, usando busca e amostragem, média de 57M tokens, custo de cerca de $3,400

O custo da confiabilidade

  • A grande mudança atual no mercado de IA é a percepção de que "ao gastar mais, é possível aumentar a precisão e a confiabilidade"
  • Além disso, a tendência é de deslocamento do peso dos custos de treinamento para os custos de inferência
  • Ao investir muitos recursos computacionais na etapa de inferência, é possível obter resultados mais precisos e estáveis
  • A maioria das empresas não conseguiu adotar automação em larga escala por causa dos problemas de confiabilidade dos sistemas de IA
  • Há a perspectiva de que os avanços na área de ARC-AGI aumentem a confiabilidade de agentes de IA, e Anthropic, OpenAI, Apple e outras também estão preparando serviços baseados em agentes
  • Os usuários tenderão a pagar de bom grado mais para obter o nível de precisão necessário
  • Portanto, espera-se que a demanda por inferência de IA aumente muito, o que levará a um crescimento da demanda por recursos computacionais

Inferência é aprendizado

  • Antes, coletavam-se grandes volumes de dados ou geravam-se dados sintéticos a partir de LLMs existentes para uso no treinamento
  • Agora, durante o processo de inferência, usuários ou sistemas podem efetivamente gerar novos dados válidos
  • Isso representa uma nova mudança econômica em que "inferência também é aprendizado"
  • Modelos de IA com muitos usuários passam a coletar mais dados de inferência, e isso por si só leva à melhoria do modelo
  • Se até o processo de SFT (rotulagem humana) se tornar desnecessário, será possível um aprendizado eficiente mesmo com sistemas que simplesmente repetem busca, síntese e verificação com grande investimento de custo

Conclusão

  • À medida que a demanda por inferência em sistemas de IA aumenta, parece provável que a reavaliação do mercado continue ocorrendo
  • Com o surgimento do sistema open source R1, que combina a abordagem CoT com técnicas de busca (search), espera-se que mais pesquisadores e desenvolvedores possam testar os limites e acelerar a inovação
  • A divulgação do R1-Zero e do R1 será uma grande contribuição para o avanço da IA no mundo todo
  • Várias equipes já demonstram a intenção de usar sistemas como o R1 com foco no ARC Prize 2025, o que aumenta a expectativa sobre os resultados futuros
  • O R1 divulgado pela DeepSeek é avaliado positivamente por contribuir para o progresso científico ao apresentar pistas importantes no caminho rumo à AGI

1 comentários

 
GN⁺ 2025-01-30
Comentários do Hacker News
  • Desenvolvedores de sistemas de IA veem a possibilidade de mudanças econômicas com a geração de novos dados. Os clientes podem arcar com o custo de gerar dados para melhorar a qualidade dos modelos

    • No entanto, existe ceticismo sobre se esses dados são realmente de alta qualidade
    • Os modelos SOTA atuais ainda estão no nível do GPT-4, mas podem avançar mais nos próximos 2 a 3 anos
    • Usar modelos de raciocínio para gerar dados e treinar com eles modelos sem raciocínio parece uma ideia promissora
    • Porém, ainda não se sabe o quão bem o raciocínio pode ser incorporado aos pesos do modelo
    • Há quem diga que a OpenAI já deveria ter treinado novos modelos usando dados de treino do o3
  • Talvez não seja necessário melhorar o modelo base, e um modelo geral já possa ser suficiente

    • O importante é reduzir o preço dos modelos de raciocínio e melhorar sua qualidade
  • O sistema o3 mostra a primeira implementação prática de um computador que se adapta a novos problemas

    • Porém, a OpenAI anunciou que treinou o o3 com 75% do conjunto público de treinamento, e a contribuição do desempenho com os dados ARC-AGI ainda não foi testada
  • Há a alegação de eliminar o gargalo humano, mas fora da matemática e da ciência da computação, é difícil definir recompensas verificáveis na maioria das áreas

  • Duas grandes mudanças estão acontecendo na economia da IA

    • É possível pagar mais para obter maior precisão e confiabilidade
    • Os custos estão migrando do treinamento para a inferência
    • Isso aumentará a demanda por inferência e, por consequência, a demanda por computação
  • O o3 marcou 75% no AGI-1, enquanto o R1 e o o1 ficaram em 25%

  • A migração de muito da computação para a inferência tem grande impacto nos investimentos atuais em IA

    • É uma má notícia para a NVDA, e soluções centradas em inferência têm melhor viabilidade econômica
  • Mike, da Baseten, disse ter orgulho de apoiar esse trabalho

  • O R1-Zero mostra um possível regime de escalabilidade sem gargalo humano

    • No entanto, há dúvidas sobre se a abordagem de RL ainda exige muitos dados humanos
  • O R1 apresenta excelente desempenho em custo-benefício

    • Parece promissor usar o R1 como gerador de dados para problemas complexos
  • Prevê-se que o futuro dos LLMs esteja em apps personalizados e individuais

    • Você diz a um agente de IA qual app deseja e quais são os requisitos, e ele constrói tudo, do backend ao frontend
    • Testa o software, corrige erros e faz o deploy em produção
    • Os LLMs atuais ainda não são perfeitos, mas já existem sistemas e fluxos de trabalho que executam e compilam código automaticamente, além de retornar os erros ao LLM como feedback