Alcançando 50% de precisão no ARC-AGI com GPT-4
O que é ARC-AGI?
- ARC-AGI é um conjunto de dados criado para avaliar a capacidade de raciocínio geral da IA.
- Ele é composto por problemas em que se deve inferir regras de transformação a partir de exemplos de entrada e saída em forma de grade (grid) feita de células coloridas.
- A precisão média humana é de 85% no conjunto de treino, mas o conjunto de teste é muito mais difícil.
Meu método
- Usei o GPT-4 para gerar cerca de 8.000 programas em Python por problema e selecionei os programas que produziam a saída correta.
- Com algumas abordagens adicionais e ajustes, melhorei bastante o desempenho:
- Prompts few-shot: uso de prompts que fazem raciocínio passo a passo.
- Correção de código: fazer o GPT-4 ajustar partes da implementação com base nos resultados de saída dos exemplos.
- Engenharia de atributos: fornecer ao modelo uma representação melhor da grade.
- Prompts especializados: uso de prompts diferentes dependendo de a grade mudar de tamanho ou não.
Efeito de mais amostragem
- O desempenho melhora à medida que o número de amostras aumenta.
- Por exemplo, com 1024 amostras foi alcançada precisão de 25%, mas com 2048 amostras foi alcançada precisão de 34%.
Efeito de prompts melhores e correção de código
- Melhorias nos prompts e a etapa de correção de código são importantes para aumentar a precisão.
- Na versão final, foi alcançada precisão de 50%.
Limitações e previsões
- A capacidade de percepção visual e de programação do GPT-4 é limitada.
- São necessárias mais amostragens e prompts melhores.
- É muito provável que a próxima geração de LLMs melhore significativamente o desempenho no ARC-AGI.
Opinião do GN⁺
- Capacidade de percepção visual: como a capacidade de percepção visual do GPT-4 é limitada, são necessários modelos de percepção visual melhores.
- Capacidade de programação: o GPT-4 comete erros simples com frequência ao programar. Ferramentas de depuração melhores são necessárias para melhorar isso.
- Custo de amostragem: como é necessária muita amostragem, o custo pode ser alto. São necessários métodos de amostragem mais eficientes.
- Potencial futuro: é muito provável que a próxima geração de LLMs melhore significativamente o desempenho no ARC-AGI. Isso pode se tornar um critério importante para avaliar a capacidade de raciocínio geral da IA.
- Aplicações práticas: são necessárias pesquisas sobre como capacidades de resolução de problemas como as do ARC-AGI podem ser usadas em aplicações reais.
1 comentários
Opiniões do Hacker News
Cofundador do ARC Prize: A pesquisa de Ryan é um estudo interessante e novo sobre "raciocínio com LLM", usando o GPT-4o para gerar 8.000 programas em Python, selecionar o programa correto e aplicá-lo a entradas de teste adicionais. Os resultados são do conjunto público de avaliação e não são resultados validados, mas são promissores. Parabeniza e agradece Ryan por seu esforço.
Crítica ao artigo: O artigo dá um salto para a conclusão de que "os LLMs atuais conseguem ter um desempenho razoavelmente bom no ARC-AGI", embora os resultados tenham sido obtidos usando vários truques manuais. Os ataques a Francois Chollet prejudicam a comunidade.
Opinião sobre o GPT-4: O GPT-4 é uma AGI ruim, e até o GPT-1 já era uma AGI. Assim como a inteligência humana se desenvolve gradualmente, o GPT-4 também pode ser visto como um pequeno cérebro especializado em pensamento textual. Afirmar que o ARC é o critério absoluto para inteligência geral perde de vista o quadro mais amplo da inteligência.
Tentativas iniciais com o GPT-4: O GPT-4 teve um desempenho "razoável" nos quebra-cabeças, mas houve casos em que falhou nas partes lógicas. O componente visuo-espacial é importante, e talvez seja necessário um modelo multimodal. Gerar soluções em Python aleatoriamente é uma abordagem "não humana".
O significado de manipular LLMs: Muitas pessoas fazerem ajustes nos LLMs para fazê-los passar em testes de AGI acaba esvaziando o propósito desses testes. No entanto, descobrir que tipo de ajuste funciona é útil. A maioria dos problemas acaba se reduzindo a correspondência de padrões.
Pontos principais:
Falhas do ARC-AGI: O ARC-AGI parece ter falhas. Algo que poderia ser explicado como AGI também pode ser explicado por estar contido no conjunto de treinamento.
Sistema 2 e AGI: Gerar e avaliar muitos programas pode cumprir o papel do sistema 2 da AGI. Isso é semelhante à forma como os humanos pensam de modo inteligente.
A importância da compreensão física: Esse desafio depende de compreensão física, percepção espacial e limites entre objetos. Identificar objetos e mapear transformações ou relações é importante. É possível resolvê-lo combinando busca de programas com LLM.
Capacidade de planejamento do GPT-4: O GPT-4 consegue gerar planos semelhantes aos descritos no artigo. Isso inclui extração de funcionalidades, síntese de programas e refinamento iterativo. Ele tem fraquezas em programação e em entrada visual.