- O sistema o3 da OpenAI estabeleceu um novo recorde no conjunto de dados público ARC-AGI-1
- Semi-Private Evaluation: alcançou 75,7% no modo de alta eficiência
- Modo de alto custo computacional (172 vezes mais computação): registrou 87,5%
- Um avanço importante que demonstra uma nova capacidade de lidar com tarefas inéditas e se adaptar, superando limitações da linha GPT
- GPT-3 (2020) 0% → GPT-4o (2024) 5% → o3 evoluindo até 75,7%
- Os resultados do ARC-AGI-1 oferecem uma nova intuição sobre o avanço das capacidades de IA
ARC Prize e o futuro da pesquisa em AGI
- O ARC Prize tem como objetivo servir de direção para a pesquisa em AGI
- Lançamento previsto do ARC-AGI-2 em 2025:
- Composto por problemas fáceis para humanos, mas difíceis para IA
- Objetivo de desenvolver novas soluções abertas e de alta eficiência
- O desempenho do o3 reforça a necessidade de projetar novos benchmarks de AGI
Resultados do teste ARC-AGI do OpenAI o3
Conjunto de teste e método
- Semi-Private Eval: 100 tarefas não públicas usadas para evitar overfitting
- Public Eval: 400 tarefas públicas
- Os testes foram conduzidos com duas configurações de computação: alta eficiência (6 amostras) e baixa eficiência (1024 amostras)
Principais resultados (alta eficiência vs baixa eficiência)
- Semi-Private Eval:
- Alta eficiência: 75,7% / custo de $20 / 1,3 minuto por tarefa
- Baixa eficiência: 87,5% / 13,8 minutos por tarefa
- Public Eval:
- Alta eficiência: 82,8% / custo de $17
- Baixa eficiência: 91,5%
Relação entre eficiência e desempenho
- A pontuação de alta eficiência ficou em 1º lugar dentro do limite do ARC-AGI-Pub (abaixo de $10.000)
- A pontuação de baixa eficiência sugere que o desempenho melhora com mais computação, mas com custo elevado
- O resultado do o3 não foi alcançado apenas com aumento de computação. Houve uma melhoria fundamental na capacidade adaptativa da IA
Discussão sobre AGI
Diferença entre ARC-AGI e AGI
- O ARC-AGI é uma ferramenta de pesquisa para avaliar a capacidade de generalização da IA
- O o3 teve desempenho excepcional no ARC-AGI, mas ainda é insuficiente para ser considerado AGI
- Existem casos em que falha em tarefas fáceis
- No futuro ARC-AGI-2, há possibilidade de a pontuação cair para abaixo de 30%
Principais diferenciais do o3
- Em relação aos modelos GPT anteriores, houve melhora na capacidade de lidar com tarefas novas e de adaptação
- Introdução de um método de exploração e execução de programas em linguagem natural:
- Durante o teste, explora o "processo de pensamento (Chain of Thought)" para resolver a tarefa
- Abordagem semelhante à busca em árvore de Monte Carlo
- Programação na forma de gerar e executar instruções em linguagem natural
Comparação com modelos GPT anteriores
- Os GPTs anteriores operavam no modo "armazenar → recuperar → aplicar"
- A limitação era a baixa adaptabilidade a tarefas novas
- O o3 tem a capacidade de recombinar funções existentes para se adaptar a novas tarefas
Direções futuras de pesquisa
Análise open source do o3
- O ARC Prize busca desenvolver soluções open source e de alta eficiência
- Divulgação dos dados de teste do o3 e das tarefas não resolvidas:
- Convite à comunidade para analisar as características das tarefas não resolvidas
- Discussão possível no canal do Discord e no GitHub
Benchmark da próxima geração
- O desenvolvimento do ARC-AGI-2 está em andamento:
- Lançamento previsto para o fim do 1º trimestre de 2025
- Um projeto totalmente novo, fora do formato tradicional do ARC-AGI
- A fundação ARC Prize planeja continuar desenvolvendo novos benchmarks para a pesquisa em AGI
Conclusão
- O OpenAI o3 representa um resultado marcante que comprova uma capacidade adaptativa de IA além dos limites da linha GPT
- A introdução da exploração de programas em linguagem natural guiada por LLM abre uma nova frente
- Daqui para frente, serão necessárias pesquisas para equilibrar eficiência e desempenho, além de colaboração por meio da abertura do ecossistema
1 comentários
Comentários do Hacker News
A eficiência está se tornando importante. O termo ARC-AGI-TUNED sugere que muitos recursos computacionais foram usados. Em comparação com o custo para um humano resolver os quebra-cabeças ARC-AGI, o custo atual de raciocínio em nível humano com computação ainda é bastante alto.
Decifrar padrões em linguagem natural é mais complexo do que quebra-cabeças. Se a IA for treinada para resolver quebra-cabeças, é difícil gerar dados de treinamento para meios externos. É impressionante inferir respostas de padrões de blocos com o mínimo de treinamento adicional.
A tarefa de programação do o3-mini não era tão difícil. Deram a tarefa ao Claude 3.5 Sonnet, e ele conseguiu na primeira tentativa.
O ARC de François Chollet é um benchmark de LLM muito interessante e desafiador. Muitas pessoas criticaram o ARC por não representar raciocínio verdadeiro, mas ele prova que o que o ARC mede é importante para o raciocínio.
O desempenho humano é de 85%, e o o3 high chega a 87,5%. Isso significa que existe um algoritmo capaz de atingir desempenho em nível humano. Isso explica por que parece que a AGI está mais próxima.
O o3 inclui aspectos essenciais da AGI. Resolver problemas do ARC exige usar vários conhecimentos centrais e aplicar o nível adequado de abstração.
O custo de execução do modelo o3 é muito alto. Ainda assim, em escala nacional, pode ser um avanço importante mesmo que não seja econômico. Se uma IA com inteligência semelhante à humana puder ser oferecida sob demanda, seu impacto pode aparecer mais rápido do que o esperado.
O ARC-AGI não significa que a AGI foi alcançada. O o3 ainda falha em tarefas fáceis. O benchmark ARC-AGI-2 ainda será um desafio para o o3.
Nem o ARC nem qualquer benchmark devem ser confundidos com inteligência geral real. A inteligência geral provavelmente só poderá ser identificada com uma vantagem considerável de retrospectiva.