3 pontos por GN⁺ 2024-12-21 | 1 comentários | Compartilhar no WhatsApp
  • O sistema o3 da OpenAI estabeleceu um novo recorde no conjunto de dados público ARC-AGI-1
    • Semi-Private Evaluation: alcançou 75,7% no modo de alta eficiência
    • Modo de alto custo computacional (172 vezes mais computação): registrou 87,5%
  • Um avanço importante que demonstra uma nova capacidade de lidar com tarefas inéditas e se adaptar, superando limitações da linha GPT
  • GPT-3 (2020) 0% → GPT-4o (2024) 5% → o3 evoluindo até 75,7%
  • Os resultados do ARC-AGI-1 oferecem uma nova intuição sobre o avanço das capacidades de IA

ARC Prize e o futuro da pesquisa em AGI

  • O ARC Prize tem como objetivo servir de direção para a pesquisa em AGI
  • Lançamento previsto do ARC-AGI-2 em 2025:
    • Composto por problemas fáceis para humanos, mas difíceis para IA
    • Objetivo de desenvolver novas soluções abertas e de alta eficiência
  • O desempenho do o3 reforça a necessidade de projetar novos benchmarks de AGI

Resultados do teste ARC-AGI do OpenAI o3

Conjunto de teste e método

  • Semi-Private Eval: 100 tarefas não públicas usadas para evitar overfitting
  • Public Eval: 400 tarefas públicas
  • Os testes foram conduzidos com duas configurações de computação: alta eficiência (6 amostras) e baixa eficiência (1024 amostras)

Principais resultados (alta eficiência vs baixa eficiência)

  • Semi-Private Eval:
    • Alta eficiência: 75,7% / custo de $20 / 1,3 minuto por tarefa
    • Baixa eficiência: 87,5% / 13,8 minutos por tarefa
  • Public Eval:
    • Alta eficiência: 82,8% / custo de $17
    • Baixa eficiência: 91,5%

Relação entre eficiência e desempenho

  • A pontuação de alta eficiência ficou em 1º lugar dentro do limite do ARC-AGI-Pub (abaixo de $10.000)
  • A pontuação de baixa eficiência sugere que o desempenho melhora com mais computação, mas com custo elevado
  • O resultado do o3 não foi alcançado apenas com aumento de computação. Houve uma melhoria fundamental na capacidade adaptativa da IA

Discussão sobre AGI

Diferença entre ARC-AGI e AGI

  • O ARC-AGI é uma ferramenta de pesquisa para avaliar a capacidade de generalização da IA
  • O o3 teve desempenho excepcional no ARC-AGI, mas ainda é insuficiente para ser considerado AGI
    • Existem casos em que falha em tarefas fáceis
    • No futuro ARC-AGI-2, há possibilidade de a pontuação cair para abaixo de 30%

Principais diferenciais do o3

  • Em relação aos modelos GPT anteriores, houve melhora na capacidade de lidar com tarefas novas e de adaptação
  • Introdução de um método de exploração e execução de programas em linguagem natural:
    • Durante o teste, explora o "processo de pensamento (Chain of Thought)" para resolver a tarefa
    • Abordagem semelhante à busca em árvore de Monte Carlo
    • Programação na forma de gerar e executar instruções em linguagem natural

Comparação com modelos GPT anteriores

  • Os GPTs anteriores operavam no modo "armazenar → recuperar → aplicar"
  • A limitação era a baixa adaptabilidade a tarefas novas
  • O o3 tem a capacidade de recombinar funções existentes para se adaptar a novas tarefas

Direções futuras de pesquisa

Análise open source do o3

  • O ARC Prize busca desenvolver soluções open source e de alta eficiência
  • Divulgação dos dados de teste do o3 e das tarefas não resolvidas:
    • Convite à comunidade para analisar as características das tarefas não resolvidas
    • Discussão possível no canal do Discord e no GitHub

Benchmark da próxima geração

  • O desenvolvimento do ARC-AGI-2 está em andamento:
    • Lançamento previsto para o fim do 1º trimestre de 2025
    • Um projeto totalmente novo, fora do formato tradicional do ARC-AGI
  • A fundação ARC Prize planeja continuar desenvolvendo novos benchmarks para a pesquisa em AGI

Conclusão

  • O OpenAI o3 representa um resultado marcante que comprova uma capacidade adaptativa de IA além dos limites da linha GPT
  • A introdução da exploração de programas em linguagem natural guiada por LLM abre uma nova frente
  • Daqui para frente, serão necessárias pesquisas para equilibrar eficiência e desempenho, além de colaboração por meio da abertura do ecossistema

1 comentários

 
GN⁺ 2024-12-21
Comentários do Hacker News
  • A eficiência está se tornando importante. O termo ARC-AGI-TUNED sugere que muitos recursos computacionais foram usados. Em comparação com o custo para um humano resolver os quebra-cabeças ARC-AGI, o custo atual de raciocínio em nível humano com computação ainda é bastante alto.

  • Decifrar padrões em linguagem natural é mais complexo do que quebra-cabeças. Se a IA for treinada para resolver quebra-cabeças, é difícil gerar dados de treinamento para meios externos. É impressionante inferir respostas de padrões de blocos com o mínimo de treinamento adicional.

  • A tarefa de programação do o3-mini não era tão difícil. Deram a tarefa ao Claude 3.5 Sonnet, e ele conseguiu na primeira tentativa.

  • O ARC de François Chollet é um benchmark de LLM muito interessante e desafiador. Muitas pessoas criticaram o ARC por não representar raciocínio verdadeiro, mas ele prova que o que o ARC mede é importante para o raciocínio.

  • O desempenho humano é de 85%, e o o3 high chega a 87,5%. Isso significa que existe um algoritmo capaz de atingir desempenho em nível humano. Isso explica por que parece que a AGI está mais próxima.

  • O o3 inclui aspectos essenciais da AGI. Resolver problemas do ARC exige usar vários conhecimentos centrais e aplicar o nível adequado de abstração.

  • O custo de execução do modelo o3 é muito alto. Ainda assim, em escala nacional, pode ser um avanço importante mesmo que não seja econômico. Se uma IA com inteligência semelhante à humana puder ser oferecida sob demanda, seu impacto pode aparecer mais rápido do que o esperado.

  • O ARC-AGI não significa que a AGI foi alcançada. O o3 ainda falha em tarefas fáceis. O benchmark ARC-AGI-2 ainda será um desafio para o o3.

  • Nem o ARC nem qualquer benchmark devem ser confundidos com inteligência geral real. A inteligência geral provavelmente só poderá ser identificada com uma vantagem considerável de retrospectiva.