- ARC-AGI-3 é o primeiro benchmark de raciocínio interativo para medir inteligência em nível humano em agentes de IA, avaliando a capacidade de explorar ambientes e aprender de forma adaptativa
- Todas as tarefas são compostas por ambientes solucionáveis por humanos e medem a eficiência na aquisição de habilidades ao longo do tempo e a capacidade de planejamento de longo prazo
- Fornece objetivos claros e feedback sem conhecimento prévio, mantendo uma estrutura de tarefas inédita que evita abordagens baseadas em memorização
- Por meio de visualização de replays, toolkit para desenvolvedores e UI de avaliação, é possível verificar de forma transparente o comportamento e o processo de raciocínio dos agentes
- Com conjunto público de jogos, documentação, SDK e canais da comunidade, dá suporte à participação na competição ARC Prize 2026 e aos testes de agentes
Visão geral do ARC-AGI-3
- ARC-AGI-3 foi projetado como um benchmark de raciocínio interativo para medir inteligência em nível humano em agentes de IA
- Avalia a capacidade do agente de explorar novos ambientes, identificar objetivos, construir um modelo de mundo adaptável e aprender continuamente
- Uma pontuação de 100% significa que a IA resolve todos os jogos com a mesma eficiência de um humano
- Não se trata de resolver quebra-cabeças estáticos, mas de aprender com a experiência dentro do ambiente e ajustar estratégias
- Deve realizar percepção, seleção de ações e adaptação estratégica sem instruções em linguagem natural
Principais recursos
- Inclui execuções reproduzíveis (run), toolkit para integração de agentes e UI transparente para avaliação
-
Replay e avaliação
- As ações do agente podem ser visualizadas em formato de replay, permitindo acompanhar em ordem temporal a tomada de decisão, as ações e o processo de raciocínio
- Replay de exemplo disponível
-
Ferramentas e UI
- É possível integrar agentes por meio do toolkit do ARC-AGI-3 e testar e iterar com uma UI interativa
- Pode ser executado diretamente pelo link Play and test
-
Documentação
- Fornece documentação necessária para construir agentes, incluindo configuração de ambiente, uso da API e guia de integração
- Acessível na página de documentação
Materiais relacionados e comunidade
- Public Game Set: conjunto público de jogos
- Docs + SDK: documentação para desenvolvedores e SDK
- ARC Prize 2026 Track: trilha da competição de 2026
- Technical Paper: relatório técnico
- Os participantes podem escolher diferentes ambientes de jogo (
ar25, bp35, ls20 etc.) para testar seus próprios agentes
- Os canais oficiais da comunidade incluem Discord, Twitter, YouTube e GitHub
- É possível acompanhar a competição oficial e as atualizações por meio do ARC Prize 2026
1 comentários
Comentários no Hacker News
Ao ver o tweet de scaling01, vários problemas no método de avaliação do ARC-AGI-3 são apontados
A referência humana é definida como o “segundo humano mais rápido”, e a pontuação não é uma simples taxa de sucesso, mas calculada como o quadrado da eficiência
Ou seja, se um humano resolve um problema em 10 etapas e o modelo o resolve em 100, ele recebe apenas 1% da pontuação
Além disso, 100% significa apenas que todos os níveis foram resolvidos, não que esteja em nível humano
Esse desenho faz com que, mesmo em nível humano, o modelo não consiga obter 100%
O prompt é simples, e o modelo não pode usar mais de 5 vezes o número de passos de um humano
O fato de os níveis finais terem peso maior também teria a intenção de detectar aprendizado contínuo
Sobre a frase “enquanto houver uma lacuna entre o aprendizado de IA e o humano, não é AGI”, isso lembra a analogia da era do Deep Blue nos anos 90
Assim como “um avião não deixa de voar só porque não bate asas como um pássaro”, aprender de forma diferente dos humanos não invalida a inteligência
Acho que a abordagem do ARC é uma excelente forma de avaliar AGI
É uma estrutura simples: dar a mesma entrada para humanos e IA e comparar os resultados
A palavra “General” é o ponto central, e o ARC é justamente uma tentativa de medir essa generalidade
Se a IA é útil ou não é secundário. Este teste é a tentativa mais convincente até agora
Além disso, quando você faz perguntas da sua área de especialidade para a IA, frequentemente vê respostas erradas. Temos a tendência de confundir conhecimento com inteligência
Quando vejo benchmarks assim, a dúvida que surge é se há alguma forma de impedir que a OpenAI contrate pessoas para montar o dataset
Depois de testar vários níveis, percebi com certeza que eu não sou AGI
Estou um pouco cético
Quem está acostumado com jogos vai passar com 100%, mas uma avó usando computador pela primeira vez fracassaria completamente. Com LLMs seria igual
No fim, modelos treinados com esse tipo de dado de jogo vão se adaptar facilmente, e isso não é AGI
Vi esse projeto ao vivo em um evento de lançamento da YC e me senti inspirado pela primeira vez em muito tempo
Também ouvi dizer que alguém que estava experimentando com o ARC2 descobriu uma forma de mover um braço robótico com mais eficiência
Ou seja, o processo de simplesmente aumentar a pontuação acabou levando a uma inovação real em robótica
ARC-4, 5 e 6 também estão planejados, e dizem esperar no futuro modelos capazes de resolver problemas em contexto zero
Não sei se o ARC-AGI tem relação direta com AGI
No fim, ele só mede o desempenho de LLMs em um tipo específico de jogo
Já existem muitos jogos em que computadores esmagam humanos, independentemente de humanos irem bem ou mal neles
Portanto, o importante é se esses jogos têm representatividade da inteligência
Eu fui um dos testadores humanos desse jogo
Resolvi 25 jogos em 90 minutos, e as instruções diziam para minimizar o número de ações, mas na prática, por causa da recompensa por velocidade ($5/jogo), foquei em resolver rápido
Então é bem possível que os dados de referência humana tenham registrado mais ações do que o necessário
O que eu mais gosto no leaderboard do ARC-AGI é o gráfico de desempenho por custo
Os avanços recentes em desempenho de IA vieram em grande parte junto com aumento no consumo de energia. No fim, gastar mais eletricidade permite obter resultados melhores