1 pontos por GN⁺ 2026-03-27 | 1 comentários | Compartilhar no WhatsApp
  • ARC-AGI-3 é o primeiro benchmark de raciocínio interativo para medir inteligência em nível humano em agentes de IA, avaliando a capacidade de explorar ambientes e aprender de forma adaptativa
  • Todas as tarefas são compostas por ambientes solucionáveis por humanos e medem a eficiência na aquisição de habilidades ao longo do tempo e a capacidade de planejamento de longo prazo
  • Fornece objetivos claros e feedback sem conhecimento prévio, mantendo uma estrutura de tarefas inédita que evita abordagens baseadas em memorização
  • Por meio de visualização de replays, toolkit para desenvolvedores e UI de avaliação, é possível verificar de forma transparente o comportamento e o processo de raciocínio dos agentes
  • Com conjunto público de jogos, documentação, SDK e canais da comunidade, dá suporte à participação na competição ARC Prize 2026 e aos testes de agentes

Visão geral do ARC-AGI-3

  • ARC-AGI-3 foi projetado como um benchmark de raciocínio interativo para medir inteligência em nível humano em agentes de IA
    • Avalia a capacidade do agente de explorar novos ambientes, identificar objetivos, construir um modelo de mundo adaptável e aprender continuamente
    • Uma pontuação de 100% significa que a IA resolve todos os jogos com a mesma eficiência de um humano
    • Não se trata de resolver quebra-cabeças estáticos, mas de aprender com a experiência dentro do ambiente e ajustar estratégias
    • Deve realizar percepção, seleção de ações e adaptação estratégica sem instruções em linguagem natural

Principais recursos

  • Inclui execuções reproduzíveis (run), toolkit para integração de agentes e UI transparente para avaliação
  • Replay e avaliação

    • As ações do agente podem ser visualizadas em formato de replay, permitindo acompanhar em ordem temporal a tomada de decisão, as ações e o processo de raciocínio
    • Replay de exemplo disponível
  • Ferramentas e UI

    • É possível integrar agentes por meio do toolkit do ARC-AGI-3 e testar e iterar com uma UI interativa
    • Pode ser executado diretamente pelo link Play and test
  • Documentação

    • Fornece documentação necessária para construir agentes, incluindo configuração de ambiente, uso da API e guia de integração
    • Acessível na página de documentação

Materiais relacionados e comunidade

  • Public Game Set: conjunto público de jogos
  • Docs + SDK: documentação para desenvolvedores e SDK
  • ARC Prize 2026 Track: trilha da competição de 2026
  • Technical Paper: relatório técnico
  • Os participantes podem escolher diferentes ambientes de jogo (ar25, bp35, ls20 etc.) para testar seus próprios agentes
  • Os canais oficiais da comunidade incluem Discord, Twitter, YouTube e GitHub
  • É possível acompanhar a competição oficial e as atualizações por meio do ARC Prize 2026

1 comentários

 
GN⁺ 2026-03-27
Comentários no Hacker News
  • Ao ver o tweet de scaling01, vários problemas no método de avaliação do ARC-AGI-3 são apontados
    A referência humana é definida como o “segundo humano mais rápido”, e a pontuação não é uma simples taxa de sucesso, mas calculada como o quadrado da eficiência
    Ou seja, se um humano resolve um problema em 10 etapas e o modelo o resolve em 100, ele recebe apenas 1% da pontuação
    Além disso, 100% significa apenas que todos os níveis foram resolvidos, não que esteja em nível humano
    Esse desenho faz com que, mesmo em nível humano, o modelo não consiga obter 100%
    O prompt é simples, e o modelo não pode usar mais de 5 vezes o número de passos de um humano
    O fato de os níveis finais terem peso maior também teria a intenção de detectar aprendizado contínuo

    • Em vez de parecer um problema, isso soa mais como uma abordagem correta. Minha impressão sobre o ARC-AGI até melhorou
    • O fato de o prompt ser simples é algo para ser resolvido em uma competição no Kaggle. Se conectarem um LLM moderno, ele deve ir muito melhor do que participantes com limitação de GPU
    • A definição da referência humana inevitavelmente acaba sendo arbitrária. Afinal, o “humano médio” ou é analfabeto ou já morreu
    • Na verdade, esse desenho faz sentido. Ficar entre os 80% melhores da maioria das pessoas é fácil, e até acima de 95% é possível com motivação
    • Pelo contrário, isso cria um teste muito mais difícil para LLMs, o que faz a pontuação atual parecer ainda mais impressionante
  • Sobre a frase “enquanto houver uma lacuna entre o aprendizado de IA e o humano, não é AGI”, isso lembra a analogia da era do Deep Blue nos anos 90
    Assim como “um avião não deixa de voar só porque não bate asas como um pássaro”, aprender de forma diferente dos humanos não invalida a inteligência

    • Essa lacuna não é só uma questão filosófica, mas de impacto econômico. Se a lacuna chegar a 0, o trabalho intelectual humano será totalmente substituído. Mesmo sem AGI completa, a economia pode entrar em colapso
    • Isso me lembra um texto de Dijkstra (EWD867). A analogia é que “computadores podem pensar?” é tão sem sentido quanto “submarinos podem nadar?”
    • O “G” de AGI significa General, mas os humanos também não são gerais. Aviões não são mais versáteis que pássaros, mas ampliam a mobilidade
    • Para mim, o debate sobre AGI já acabou. Só com as ferramentas atuais já temos utilidade suficiente, e já aparecem sinais de ASI (inteligência autoaperfeiçoável). A competição ARC-AGI é só um experimento interessante para medir o estado atual
    • A inteligência não existe apenas em forma humana. O que importa é a utilidade da saída. Já a questão da consciência é moral; como não dá para provar, a posição é assumir por enquanto que ela existe
  • Acho que a abordagem do ARC é uma excelente forma de avaliar AGI
    É uma estrutura simples: dar a mesma entrada para humanos e IA e comparar os resultados
    A palavra “General” é o ponto central, e o ARC é justamente uma tentativa de medir essa generalidade
    Se a IA é útil ou não é secundário. Este teste é a tentativa mais convincente até agora
    Além disso, quando você faz perguntas da sua área de especialidade para a IA, frequentemente vê respostas erradas. Temos a tendência de confundir conhecimento com inteligência

    • Acho incorreto usar o termo “General”. Humanos também não são gerais e têm capacidades irregulares. Em linguagem, os LLMs já superam humanos
    • Esse teste é um jogo que exige reconhecimento visual, então é como aplicar um teste de direção a uma pessoa cega. Se o jogo fosse convertido para texto, talvez os LLMs fossem melhores que humanos
    • O ARC-AGI anterior parecia um teste de QI, mas esta versão está fácil demais. Se os LLMs não conseguem resolver, talvez seja por incompatibilidade no formato de entrada. Parece algo que logo será resolvido só com treinamento em jogos baseados em texto
  • Quando vejo benchmarks assim, a dúvida que surge é se há alguma forma de impedir que a OpenAI contrate pessoas para montar o dataset

    • Mas a pergunta importante não é essa, e sim: o modelo consegue generalizar? O ARC-AGI parece ter sido projetado para avaliar resolução de problemas visuais de contexto longo e agência
  • Depois de testar vários níveis, percebi com certeza que eu não sou AGI

    • Acho que deveria ser NGI, ou seja, Natural General Intelligence
    • Só que a IA pode acessar a internet inteira, não tem limite de tempo e não sente vergonha de enviar inúmeras respostas erradas. Essas condições são completamente diferentes de um teste humano
    • Também ouvi a piada: “obrigado por baixar o padrão de AGI”
  • Estou um pouco cético
    Quem está acostumado com jogos vai passar com 100%, mas uma avó usando computador pela primeira vez fracassaria completamente. Com LLMs seria igual
    No fim, modelos treinados com esse tipo de dado de jogo vão se adaptar facilmente, e isso não é AGI

    • Mas humanos também ficam bons em jogos por meio de aprendizado, então, a menos que aprendizado online seja permitido, esse teste não reflete aprendizado no estilo humano
    • Eu também, como gamer há 40 anos, achei esses quebra-cabeças fáceis demais. Assim que você entende a regra, resolve na hora. Esse tipo de problema é a minha área de especialidade
  • Vi esse projeto ao vivo em um evento de lançamento da YC e me senti inspirado pela primeira vez em muito tempo
    Também ouvi dizer que alguém que estava experimentando com o ARC2 descobriu uma forma de mover um braço robótico com mais eficiência
    Ou seja, o processo de simplesmente aumentar a pontuação acabou levando a uma inovação real em robótica
    ARC-4, 5 e 6 também estão planejados, e dizem esperar no futuro modelos capazes de resolver problemas em contexto zero

    • Mas essa expansão desse tipo também pode acabar parecendo mover a trave(goalpost moving)
  • Não sei se o ARC-AGI tem relação direta com AGI
    No fim, ele só mede o desempenho de LLMs em um tipo específico de jogo
    Já existem muitos jogos em que computadores esmagam humanos, independentemente de humanos irem bem ou mal neles
    Portanto, o importante é se esses jogos têm representatividade da inteligência

    • O criador do ARC-AGI, Chollet, define inteligência como “o quão bem se funciona em situações nunca vistas antes”. O ARC-AGI mede exatamente essa capacidade
    • Mas “AGI” está mais para termo de marketing, e benchmarks assim servem mais para divulgação do que para eficiência real no trabalho
  • Eu fui um dos testadores humanos desse jogo
    Resolvi 25 jogos em 90 minutos, e as instruções diziam para minimizar o número de ações, mas na prática, por causa da recompensa por velocidade ($5/jogo), foquei em resolver rápido
    Então é bem possível que os dados de referência humana tenham registrado mais ações do que o necessário

  • O que eu mais gosto no leaderboard do ARC-AGI é o gráfico de desempenho por custo
    Os avanços recentes em desempenho de IA vieram em grande parte junto com aumento no consumo de energia. No fim, gastar mais eletricidade permite obter resultados melhores