OpenAI o3 atinge pontuação excepcionalmente alta no ARC-AGI-PUB

(arcprize.org)

3 pontos por GN⁺ 2024-12-21 | 1 comentários | Compartilhar no WhatsApp

O sistema o3 da OpenAI estabeleceu um novo recorde no conjunto de dados público ARC-AGI-1
- Semi-Private Evaluation: alcançou 75,7% no modo de alta eficiência
- Modo de alto custo computacional (172 vezes mais computação): registrou 87,5%
Um avanço importante que demonstra uma nova capacidade de lidar com tarefas inéditas e se adaptar, superando limitações da linha GPT
GPT-3 (2020) 0% → GPT-4o (2024) 5% → o3 evoluindo até 75,7%
Os resultados do ARC-AGI-1 oferecem uma nova intuição sobre o avanço das capacidades de IA

ARC Prize e o futuro da pesquisa em AGI

O ARC Prize tem como objetivo servir de direção para a pesquisa em AGI
Lançamento previsto do ARC-AGI-2 em 2025:
- Composto por problemas fáceis para humanos, mas difíceis para IA
- Objetivo de desenvolver novas soluções abertas e de alta eficiência
O desempenho do o3 reforça a necessidade de projetar novos benchmarks de AGI

Resultados do teste ARC-AGI do OpenAI o3

Conjunto de teste e método

Semi-Private Eval: 100 tarefas não públicas usadas para evitar overfitting
Public Eval: 400 tarefas públicas
Os testes foram conduzidos com duas configurações de computação: alta eficiência (6 amostras) e baixa eficiência (1024 amostras)

Principais resultados (alta eficiência vs baixa eficiência)

Semi-Private Eval:
- Alta eficiência: 75,7% / custo de $20 / 1,3 minuto por tarefa
- Baixa eficiência: 87,5% / 13,8 minutos por tarefa
Public Eval:
- Alta eficiência: 82,8% / custo de $17
- Baixa eficiência: 91,5%

Relação entre eficiência e desempenho

A pontuação de alta eficiência ficou em 1º lugar dentro do limite do ARC-AGI-Pub (abaixo de $10.000)
A pontuação de baixa eficiência sugere que o desempenho melhora com mais computação, mas com custo elevado
O resultado do o3 não foi alcançado apenas com aumento de computação. Houve uma melhoria fundamental na capacidade adaptativa da IA

Discussão sobre AGI

Diferença entre ARC-AGI e AGI

O ARC-AGI é uma ferramenta de pesquisa para avaliar a capacidade de generalização da IA
O o3 teve desempenho excepcional no ARC-AGI, mas ainda é insuficiente para ser considerado AGI
- Existem casos em que falha em tarefas fáceis
- No futuro ARC-AGI-2, há possibilidade de a pontuação cair para abaixo de 30%

Principais diferenciais do o3

Em relação aos modelos GPT anteriores, houve melhora na capacidade de lidar com tarefas novas e de adaptação
Introdução de um método de exploração e execução de programas em linguagem natural:
- Durante o teste, explora o "processo de pensamento (Chain of Thought)" para resolver a tarefa
- Abordagem semelhante à busca em árvore de Monte Carlo
- Programação na forma de gerar e executar instruções em linguagem natural

Comparação com modelos GPT anteriores

Os GPTs anteriores operavam no modo "armazenar → recuperar → aplicar"
A limitação era a baixa adaptabilidade a tarefas novas
O o3 tem a capacidade de recombinar funções existentes para se adaptar a novas tarefas

Direções futuras de pesquisa

Análise open source do o3

O ARC Prize busca desenvolver soluções open source e de alta eficiência
Divulgação dos dados de teste do o3 e das tarefas não resolvidas:
- Convite à comunidade para analisar as características das tarefas não resolvidas
- Discussão possível no canal do Discord e no GitHub

Benchmark da próxima geração

O desenvolvimento do ARC-AGI-2 está em andamento:
- Lançamento previsto para o fim do 1º trimestre de 2025
- Um projeto totalmente novo, fora do formato tradicional do ARC-AGI
A fundação ARC Prize planeja continuar desenvolvendo novos benchmarks para a pesquisa em AGI

Conclusão

O OpenAI o3 representa um resultado marcante que comprova uma capacidade adaptativa de IA além dos limites da linha GPT
A introdução da exploração de programas em linguagem natural guiada por LLM abre uma nova frente
Daqui para frente, serão necessárias pesquisas para equilibrar eficiência e desempenho, além de colaboração por meio da abertura do ecossistema

1 comentários

GN⁺ 2024-12-21

Comentários do Hacker News

A eficiência está se tornando importante. O termo ARC-AGI-TUNED sugere que muitos recursos computacionais foram usados. Em comparação com o custo para um humano resolver os quebra-cabeças ARC-AGI, o custo atual de raciocínio em nível humano com computação ainda é bastante alto.
Decifrar padrões em linguagem natural é mais complexo do que quebra-cabeças. Se a IA for treinada para resolver quebra-cabeças, é difícil gerar dados de treinamento para meios externos. É impressionante inferir respostas de padrões de blocos com o mínimo de treinamento adicional.
A tarefa de programação do o3-mini não era tão difícil. Deram a tarefa ao Claude 3.5 Sonnet, e ele conseguiu na primeira tentativa.
O ARC de François Chollet é um benchmark de LLM muito interessante e desafiador. Muitas pessoas criticaram o ARC por não representar raciocínio verdadeiro, mas ele prova que o que o ARC mede é importante para o raciocínio.
O desempenho humano é de 85%, e o o3 high chega a 87,5%. Isso significa que existe um algoritmo capaz de atingir desempenho em nível humano. Isso explica por que parece que a AGI está mais próxima.
O o3 inclui aspectos essenciais da AGI. Resolver problemas do ARC exige usar vários conhecimentos centrais e aplicar o nível adequado de abstração.
O custo de execução do modelo o3 é muito alto. Ainda assim, em escala nacional, pode ser um avanço importante mesmo que não seja econômico. Se uma IA com inteligência semelhante à humana puder ser oferecida sob demanda, seu impacto pode aparecer mais rápido do que o esperado.
O ARC-AGI não significa que a AGI foi alcançada. O o3 ainda falha em tarefas fáceis. O benchmark ARC-AGI-2 ainda será um desafio para o o3.
Nem o ARC nem qualquer benchmark devem ser confundidos com inteligência geral real. A inteligência geral provavelmente só poderá ser identificada com uma vantagem considerável de retrospectiva.

OpenAI o3 atinge pontuação excepcionalmente alta no ARC-AGI-PUB

ARC Prize e o futuro da pesquisa em AGI

Resultados do teste ARC-AGI do OpenAI o3

Conjunto de teste e método

Principais resultados (alta eficiência vs baixa eficiência)

Relação entre eficiência e desempenho

Discussão sobre AGI

Diferença entre ARC-AGI e AGI

Principais diferenciais do o3

Comparação com modelos GPT anteriores

Direções futuras de pesquisa

Análise open source do o3

Benchmark da próxima geração

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News