50% no Arc-AGI com GPT-4o (SoTA)

(redwoodresearch.substack.com)

1 pontos por GN⁺ 2024-06-19 | 1 comentários | Compartilhar no WhatsApp

Alcançando 50% de precisão no ARC-AGI com GPT-4

O que é ARC-AGI?

ARC-AGI é um conjunto de dados criado para avaliar a capacidade de raciocínio geral da IA.
Ele é composto por problemas em que se deve inferir regras de transformação a partir de exemplos de entrada e saída em forma de grade (grid) feita de células coloridas.
A precisão média humana é de 85% no conjunto de treino, mas o conjunto de teste é muito mais difícil.

Meu método

Usei o GPT-4 para gerar cerca de 8.000 programas em Python por problema e selecionei os programas que produziam a saída correta.
Com algumas abordagens adicionais e ajustes, melhorei bastante o desempenho:
- Prompts few-shot: uso de prompts que fazem raciocínio passo a passo.
- Correção de código: fazer o GPT-4 ajustar partes da implementação com base nos resultados de saída dos exemplos.
- Engenharia de atributos: fornecer ao modelo uma representação melhor da grade.
- Prompts especializados: uso de prompts diferentes dependendo de a grade mudar de tamanho ou não.

Efeito de mais amostragem

O desempenho melhora à medida que o número de amostras aumenta.
Por exemplo, com 1024 amostras foi alcançada precisão de 25%, mas com 2048 amostras foi alcançada precisão de 34%.

Efeito de prompts melhores e correção de código

Melhorias nos prompts e a etapa de correção de código são importantes para aumentar a precisão.
Na versão final, foi alcançada precisão de 50%.

Limitações e previsões

A capacidade de percepção visual e de programação do GPT-4 é limitada.
São necessárias mais amostragens e prompts melhores.
É muito provável que a próxima geração de LLMs melhore significativamente o desempenho no ARC-AGI.

Opinião do GN⁺

Capacidade de percepção visual: como a capacidade de percepção visual do GPT-4 é limitada, são necessários modelos de percepção visual melhores.
Capacidade de programação: o GPT-4 comete erros simples com frequência ao programar. Ferramentas de depuração melhores são necessárias para melhorar isso.
Custo de amostragem: como é necessária muita amostragem, o custo pode ser alto. São necessários métodos de amostragem mais eficientes.
Potencial futuro: é muito provável que a próxima geração de LLMs melhore significativamente o desempenho no ARC-AGI. Isso pode se tornar um critério importante para avaliar a capacidade de raciocínio geral da IA.
Aplicações práticas: são necessárias pesquisas sobre como capacidades de resolução de problemas como as do ARC-AGI podem ser usadas em aplicações reais.

1 comentários

GN⁺ 2024-06-19

Opiniões do Hacker News

Cofundador do ARC Prize: A pesquisa de Ryan é um estudo interessante e novo sobre "raciocínio com LLM", usando o GPT-4o para gerar 8.000 programas em Python, selecionar o programa correto e aplicá-lo a entradas de teste adicionais. Os resultados são do conjunto público de avaliação e não são resultados validados, mas são promissores. Parabeniza e agradece Ryan por seu esforço.
Crítica ao artigo: O artigo dá um salto para a conclusão de que "os LLMs atuais conseguem ter um desempenho razoavelmente bom no ARC-AGI", embora os resultados tenham sido obtidos usando vários truques manuais. Os ataques a Francois Chollet prejudicam a comunidade.
Opinião sobre o GPT-4: O GPT-4 é uma AGI ruim, e até o GPT-1 já era uma AGI. Assim como a inteligência humana se desenvolve gradualmente, o GPT-4 também pode ser visto como um pequeno cérebro especializado em pensamento textual. Afirmar que o ARC é o critério absoluto para inteligência geral perde de vista o quadro mais amplo da inteligência.
Tentativas iniciais com o GPT-4: O GPT-4 teve um desempenho "razoável" nos quebra-cabeças, mas houve casos em que falhou nas partes lógicas. O componente visuo-espacial é importante, e talvez seja necessário um modelo multimodal. Gerar soluções em Python aleatoriamente é uma abordagem "não humana".
O significado de manipular LLMs: Muitas pessoas fazerem ajustes nos LLMs para fazê-los passar em testes de AGI acaba esvaziando o propósito desses testes. No entanto, descobrir que tipo de ajuste funciona é útil. A maioria dos problemas acaba se reduzindo a correspondência de padrões.
Pontos principais:
- A maior parte do trabalho é feita por busca.
- Mais amostras melhoram o desempenho.
- O LLM gera programas melhores do que programas aleatórios.
- Não há certeza de que o GPT-4 consiga resolver os quebra-cabeças do ARC.
Falhas do ARC-AGI: O ARC-AGI parece ter falhas. Algo que poderia ser explicado como AGI também pode ser explicado por estar contido no conjunto de treinamento.
Sistema 2 e AGI: Gerar e avaliar muitos programas pode cumprir o papel do sistema 2 da AGI. Isso é semelhante à forma como os humanos pensam de modo inteligente.
A importância da compreensão física: Esse desafio depende de compreensão física, percepção espacial e limites entre objetos. Identificar objetos e mapear transformações ou relações é importante. É possível resolvê-lo combinando busca de programas com LLM.
Capacidade de planejamento do GPT-4: O GPT-4 consegue gerar planos semelhantes aos descritos no artigo. Isso inclui extração de funcionalidades, síntese de programas e refinamento iterativo. Ele tem fraquezas em programação e em entrada visual.

50% no Arc-AGI com GPT-4o (SoTA)

Alcançando 50% de precisão no ARC-AGI com GPT-4

O que é ARC-AGI?

Meu método

Efeito de mais amostragem

Efeito de prompts melhores e correção de código

Limitações e previsões

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões do Hacker News