ARC-AGI-3 - o primeiro benchmark de raciocínio interativo

(arcprize.org)

1 pontos por GN⁺ 2026-03-27 | 1 comentários | Compartilhar no WhatsApp

ARC-AGI-3 é o primeiro benchmark de raciocínio interativo para medir inteligência em nível humano em agentes de IA, avaliando a capacidade de explorar ambientes e aprender de forma adaptativa
Todas as tarefas são compostas por ambientes solucionáveis por humanos e medem a eficiência na aquisição de habilidades ao longo do tempo e a capacidade de planejamento de longo prazo
Fornece objetivos claros e feedback sem conhecimento prévio, mantendo uma estrutura de tarefas inédita que evita abordagens baseadas em memorização
Por meio de visualização de replays, toolkit para desenvolvedores e UI de avaliação, é possível verificar de forma transparente o comportamento e o processo de raciocínio dos agentes
Com conjunto público de jogos, documentação, SDK e canais da comunidade, dá suporte à participação na competição ARC Prize 2026 e aos testes de agentes

Visão geral do ARC-AGI-3

ARC-AGI-3 foi projetado como um benchmark de raciocínio interativo para medir inteligência em nível humano em agentes de IA
- Avalia a capacidade do agente de explorar novos ambientes, identificar objetivos, construir um modelo de mundo adaptável e aprender continuamente
- Uma pontuação de 100% significa que a IA resolve todos os jogos com a mesma eficiência de um humano
- Não se trata de resolver quebra-cabeças estáticos, mas de aprender com a experiência dentro do ambiente e ajustar estratégias
- Deve realizar percepção, seleção de ações e adaptação estratégica sem instruções em linguagem natural

Principais recursos

Inclui execuções reproduzíveis (run), toolkit para integração de agentes e UI transparente para avaliação
Replay e avaliação
- As ações do agente podem ser visualizadas em formato de replay, permitindo acompanhar em ordem temporal a tomada de decisão, as ações e o processo de raciocínio
- Replay de exemplo disponível
Ferramentas e UI
- É possível integrar agentes por meio do toolkit do ARC-AGI-3 e testar e iterar com uma UI interativa
- Pode ser executado diretamente pelo link Play and test
Documentação
- Fornece documentação necessária para construir agentes, incluindo configuração de ambiente, uso da API e guia de integração
- Acessível na página de documentação

Materiais relacionados e comunidade

Public Game Set: conjunto público de jogos
Docs + SDK: documentação para desenvolvedores e SDK
ARC Prize 2026 Track: trilha da competição de 2026
Technical Paper: relatório técnico
Os participantes podem escolher diferentes ambientes de jogo (ar25, bp35, ls20 etc.) para testar seus próprios agentes
Os canais oficiais da comunidade incluem Discord, Twitter, YouTube e GitHub
É possível acompanhar a competição oficial e as atualizações por meio do ARC Prize 2026

1 comentários

GN⁺ 2026-03-27

Comentários no Hacker News

Ao ver o tweet de scaling01, vários problemas no método de avaliação do ARC-AGI-3 são apontados
A referência humana é definida como o “segundo humano mais rápido”, e a pontuação não é uma simples taxa de sucesso, mas calculada como o quadrado da eficiência
Ou seja, se um humano resolve um problema em 10 etapas e o modelo o resolve em 100, ele recebe apenas 1% da pontuação
Além disso, 100% significa apenas que todos os níveis foram resolvidos, não que esteja em nível humano
Esse desenho faz com que, mesmo em nível humano, o modelo não consiga obter 100%
O prompt é simples, e o modelo não pode usar mais de 5 vezes o número de passos de um humano
O fato de os níveis finais terem peso maior também teria a intenção de detectar aprendizado contínuo
- Em vez de parecer um problema, isso soa mais como uma abordagem correta. Minha impressão sobre o ARC-AGI até melhorou
- O fato de o prompt ser simples é algo para ser resolvido em uma competição no Kaggle. Se conectarem um LLM moderno, ele deve ir muito melhor do que participantes com limitação de GPU
- A definição da referência humana inevitavelmente acaba sendo arbitrária. Afinal, o “humano médio” ou é analfabeto ou já morreu
- Na verdade, esse desenho faz sentido. Ficar entre os 80% melhores da maioria das pessoas é fácil, e até acima de 95% é possível com motivação
- Pelo contrário, isso cria um teste muito mais difícil para LLMs, o que faz a pontuação atual parecer ainda mais impressionante
Sobre a frase “enquanto houver uma lacuna entre o aprendizado de IA e o humano, não é AGI”, isso lembra a analogia da era do Deep Blue nos anos 90
Assim como “um avião não deixa de voar só porque não bate asas como um pássaro”, aprender de forma diferente dos humanos não invalida a inteligência
- Essa lacuna não é só uma questão filosófica, mas de impacto econômico. Se a lacuna chegar a 0, o trabalho intelectual humano será totalmente substituído. Mesmo sem AGI completa, a economia pode entrar em colapso
- Isso me lembra um texto de Dijkstra (EWD867). A analogia é que “computadores podem pensar?” é tão sem sentido quanto “submarinos podem nadar?”
- O “G” de AGI significa General, mas os humanos também não são gerais. Aviões não são mais versáteis que pássaros, mas ampliam a mobilidade
- Para mim, o debate sobre AGI já acabou. Só com as ferramentas atuais já temos utilidade suficiente, e já aparecem sinais de ASI (inteligência autoaperfeiçoável). A competição ARC-AGI é só um experimento interessante para medir o estado atual
- A inteligência não existe apenas em forma humana. O que importa é a utilidade da saída. Já a questão da consciência é moral; como não dá para provar, a posição é assumir por enquanto que ela existe
Acho que a abordagem do ARC é uma excelente forma de avaliar AGI
É uma estrutura simples: dar a mesma entrada para humanos e IA e comparar os resultados
A palavra “General” é o ponto central, e o ARC é justamente uma tentativa de medir essa generalidade
Se a IA é útil ou não é secundário. Este teste é a tentativa mais convincente até agora
Além disso, quando você faz perguntas da sua área de especialidade para a IA, frequentemente vê respostas erradas. Temos a tendência de confundir conhecimento com inteligência
- Acho incorreto usar o termo “General”. Humanos também não são gerais e têm capacidades irregulares. Em linguagem, os LLMs já superam humanos
- Esse teste é um jogo que exige reconhecimento visual, então é como aplicar um teste de direção a uma pessoa cega. Se o jogo fosse convertido para texto, talvez os LLMs fossem melhores que humanos
- O ARC-AGI anterior parecia um teste de QI, mas esta versão está fácil demais. Se os LLMs não conseguem resolver, talvez seja por incompatibilidade no formato de entrada. Parece algo que logo será resolvido só com treinamento em jogos baseados em texto
Quando vejo benchmarks assim, a dúvida que surge é se há alguma forma de impedir que a OpenAI contrate pessoas para montar o dataset
- Mas a pergunta importante não é essa, e sim: o modelo consegue generalizar? O ARC-AGI parece ter sido projetado para avaliar resolução de problemas visuais de contexto longo e agência
Depois de testar vários níveis, percebi com certeza que eu não sou AGI
- Acho que deveria ser NGI, ou seja, Natural General Intelligence
- Só que a IA pode acessar a internet inteira, não tem limite de tempo e não sente vergonha de enviar inúmeras respostas erradas. Essas condições são completamente diferentes de um teste humano
- Também ouvi a piada: “obrigado por baixar o padrão de AGI”
Estou um pouco cético
Quem está acostumado com jogos vai passar com 100%, mas uma avó usando computador pela primeira vez fracassaria completamente. Com LLMs seria igual
No fim, modelos treinados com esse tipo de dado de jogo vão se adaptar facilmente, e isso não é AGI
- Mas humanos também ficam bons em jogos por meio de aprendizado, então, a menos que aprendizado online seja permitido, esse teste não reflete aprendizado no estilo humano
- Eu também, como gamer há 40 anos, achei esses quebra-cabeças fáceis demais. Assim que você entende a regra, resolve na hora. Esse tipo de problema é a minha área de especialidade
Vi esse projeto ao vivo em um evento de lançamento da YC e me senti inspirado pela primeira vez em muito tempo
Também ouvi dizer que alguém que estava experimentando com o ARC2 descobriu uma forma de mover um braço robótico com mais eficiência
Ou seja, o processo de simplesmente aumentar a pontuação acabou levando a uma inovação real em robótica
ARC-4, 5 e 6 também estão planejados, e dizem esperar no futuro modelos capazes de resolver problemas em contexto zero
- Mas essa expansão desse tipo também pode acabar parecendo mover a trave(goalpost moving)
Não sei se o ARC-AGI tem relação direta com AGI
No fim, ele só mede o desempenho de LLMs em um tipo específico de jogo
Já existem muitos jogos em que computadores esmagam humanos, independentemente de humanos irem bem ou mal neles
Portanto, o importante é se esses jogos têm representatividade da inteligência
- O criador do ARC-AGI, Chollet, define inteligência como “o quão bem se funciona em situações nunca vistas antes”. O ARC-AGI mede exatamente essa capacidade
- Mas “AGI” está mais para termo de marketing, e benchmarks assim servem mais para divulgação do que para eficiência real no trabalho
Eu fui um dos testadores humanos desse jogo
Resolvi 25 jogos em 90 minutos, e as instruções diziam para minimizar o número de ações, mas na prática, por causa da recompensa por velocidade ($5/jogo), foquei em resolver rápido
Então é bem possível que os dados de referência humana tenham registrado mais ações do que o necessário
O que eu mais gosto no leaderboard do ARC-AGI é o gráfico de desempenho por custo
Os avanços recentes em desempenho de IA vieram em grande parte junto com aumento no consumo de energia. No fim, gastar mais eletricidade permite obter resultados melhores

ARC-AGI-3 - o primeiro benchmark de raciocínio interativo

Visão geral do ARC-AGI-3

Principais recursos

Replay e avaliação

Ferramentas e UI

Documentação

Materiais relacionados e comunidade

Leituras relacionadas

1 comentários

Comentários no Hacker News