1 pontos por GN⁺ 2024-06-19 | 1 comentários | Compartilhar no WhatsApp

Alcançando 50% de precisão no ARC-AGI com GPT-4

O que é ARC-AGI?

  • ARC-AGI é um conjunto de dados criado para avaliar a capacidade de raciocínio geral da IA.
  • Ele é composto por problemas em que se deve inferir regras de transformação a partir de exemplos de entrada e saída em forma de grade (grid) feita de células coloridas.
  • A precisão média humana é de 85% no conjunto de treino, mas o conjunto de teste é muito mais difícil.

Meu método

  • Usei o GPT-4 para gerar cerca de 8.000 programas em Python por problema e selecionei os programas que produziam a saída correta.
  • Com algumas abordagens adicionais e ajustes, melhorei bastante o desempenho:
    • Prompts few-shot: uso de prompts que fazem raciocínio passo a passo.
    • Correção de código: fazer o GPT-4 ajustar partes da implementação com base nos resultados de saída dos exemplos.
    • Engenharia de atributos: fornecer ao modelo uma representação melhor da grade.
    • Prompts especializados: uso de prompts diferentes dependendo de a grade mudar de tamanho ou não.

Efeito de mais amostragem

  • O desempenho melhora à medida que o número de amostras aumenta.
  • Por exemplo, com 1024 amostras foi alcançada precisão de 25%, mas com 2048 amostras foi alcançada precisão de 34%.

Efeito de prompts melhores e correção de código

  • Melhorias nos prompts e a etapa de correção de código são importantes para aumentar a precisão.
  • Na versão final, foi alcançada precisão de 50%.

Limitações e previsões

  • A capacidade de percepção visual e de programação do GPT-4 é limitada.
  • São necessárias mais amostragens e prompts melhores.
  • É muito provável que a próxima geração de LLMs melhore significativamente o desempenho no ARC-AGI.

Opinião do GN⁺

  • Capacidade de percepção visual: como a capacidade de percepção visual do GPT-4 é limitada, são necessários modelos de percepção visual melhores.
  • Capacidade de programação: o GPT-4 comete erros simples com frequência ao programar. Ferramentas de depuração melhores são necessárias para melhorar isso.
  • Custo de amostragem: como é necessária muita amostragem, o custo pode ser alto. São necessários métodos de amostragem mais eficientes.
  • Potencial futuro: é muito provável que a próxima geração de LLMs melhore significativamente o desempenho no ARC-AGI. Isso pode se tornar um critério importante para avaliar a capacidade de raciocínio geral da IA.
  • Aplicações práticas: são necessárias pesquisas sobre como capacidades de resolução de problemas como as do ARC-AGI podem ser usadas em aplicações reais.

1 comentários

 
GN⁺ 2024-06-19
Opiniões do Hacker News
  • Cofundador do ARC Prize: A pesquisa de Ryan é um estudo interessante e novo sobre "raciocínio com LLM", usando o GPT-4o para gerar 8.000 programas em Python, selecionar o programa correto e aplicá-lo a entradas de teste adicionais. Os resultados são do conjunto público de avaliação e não são resultados validados, mas são promissores. Parabeniza e agradece Ryan por seu esforço.

  • Crítica ao artigo: O artigo dá um salto para a conclusão de que "os LLMs atuais conseguem ter um desempenho razoavelmente bom no ARC-AGI", embora os resultados tenham sido obtidos usando vários truques manuais. Os ataques a Francois Chollet prejudicam a comunidade.

  • Opinião sobre o GPT-4: O GPT-4 é uma AGI ruim, e até o GPT-1 já era uma AGI. Assim como a inteligência humana se desenvolve gradualmente, o GPT-4 também pode ser visto como um pequeno cérebro especializado em pensamento textual. Afirmar que o ARC é o critério absoluto para inteligência geral perde de vista o quadro mais amplo da inteligência.

  • Tentativas iniciais com o GPT-4: O GPT-4 teve um desempenho "razoável" nos quebra-cabeças, mas houve casos em que falhou nas partes lógicas. O componente visuo-espacial é importante, e talvez seja necessário um modelo multimodal. Gerar soluções em Python aleatoriamente é uma abordagem "não humana".

  • O significado de manipular LLMs: Muitas pessoas fazerem ajustes nos LLMs para fazê-los passar em testes de AGI acaba esvaziando o propósito desses testes. No entanto, descobrir que tipo de ajuste funciona é útil. A maioria dos problemas acaba se reduzindo a correspondência de padrões.

  • Pontos principais:

    • A maior parte do trabalho é feita por busca.
    • Mais amostras melhoram o desempenho.
    • O LLM gera programas melhores do que programas aleatórios.
    • Não há certeza de que o GPT-4 consiga resolver os quebra-cabeças do ARC.
  • Falhas do ARC-AGI: O ARC-AGI parece ter falhas. Algo que poderia ser explicado como AGI também pode ser explicado por estar contido no conjunto de treinamento.

  • Sistema 2 e AGI: Gerar e avaliar muitos programas pode cumprir o papel do sistema 2 da AGI. Isso é semelhante à forma como os humanos pensam de modo inteligente.

  • A importância da compreensão física: Esse desafio depende de compreensão física, percepção espacial e limites entre objetos. Identificar objetos e mapear transformações ou relações é importante. É possível resolvê-lo combinando busca de programas com LLM.

  • Capacidade de planejamento do GPT-4: O GPT-4 consegue gerar planos semelhantes aos descritos no artigo. Isso inclui extração de funcionalidades, síntese de programas e refinamento iterativo. Ele tem fraquezas em programação e em entrada visual.