Menos é mais: raciocínio recursivo com redes menores

(alexiajm.github.io)

3 pontos por GN⁺ 2025-10-10 | 1 comentários | Compartilhar no WhatsApp

O Tiny Recursion Model (TRM) alcança alto desempenho com uma rede neural pequena de cerca de 7M parâmetros: 45% no ARC-AGI-1 e 8% no ARC-AGI-2
Demonstra que é possível resolver problemas difíceis aplicando raciocínio recursivo, mesmo sem usar um grande modelo de linguagem
O modelo simplifica a estrutura complexa do Hierarchical Reasoning Model (HRM) existente, mantendo apenas o processo central de raciocínio recursivo
Sem depender do cérebro humano, de teoremas matemáticos complexos ou de estruturas hierárquicas, o TRM melhora continuamente a qualidade das respostas com um modelo pequeno e eficiente
O artigo destaca que, para resolver problemas difíceis, uma nova abordagem é mais importante do que o tamanho do modelo

Visão geral

Este artigo propõe um novo modelo de raciocínio recursivo chamado Tiny Recursion Model (TRM)
Mesmo sendo uma rede neural composta por apenas 7M parâmetros, o TRM registra uma precisão significativa de 45% no ARC-AGI-1 e 8% no ARC-AGI-2
O modelo mostra experimentalmente que, mesmo sem ser um grande modelo treinado por grandes empresas com investimentos de milhões de dólares, é possível resolver problemas complexos com eficiência por meio de raciocínio recursivo
Hoje há um foco excessivo no setor apenas no uso de LLMs, mas o TRM sugere que novas direções de raciocínio e aprendizado são importantes

Diferenças em relação a pesquisas anteriores

No Hierarchical Reasoning Model (HRM) anterior, havia forte dependência de lógica biológica, estruturas hierárquicas complexas e teoremas matemáticos (como teoremas do ponto fixo)
O TRM remove essa complexidade e simplifica tanto o projeto quanto a implementação de forma intuitiva, preservando apenas o mecanismo central simplificado de raciocínio recursivo
O ponto central é melhorar continuamente a precisão das respostas por meio de um processo recursivo de auto-repetição, sem depender da estrutura do cérebro humano nem de uma base teórica específica

Como o TRM funciona

Começa com o embedding da pergunta de entrada x, da resposta inicial y e do estado oculto z
Ao longo de no máximo K etapas de refinamento, os dois passos a seguir são executados repetidamente:
- i) o valor oculto z é atualizado recursivamente n vezes a partir da pergunta atual x, da resposta y e do estado oculto z (raciocínio recursivo)
- ii) a resposta y é atualizada novamente a partir da resposta atual y e do novo estado oculto z, produzindo uma resposta melhor
Esse processo de repetição recursiva melhora continuamente a qualidade da resposta sem aumentar os parâmetros do modelo, além de reduzir o risco de overfitting

Conclusão

A pesquisa sobre o TRM demonstra que o tamanho do modelo não é necessariamente um fator essencial para o sucesso
Os experimentos mostram que, apenas com o princípio do raciocínio recursivo, uma rede neural pequena pode alcançar resultados próximos aos de modelos grandes
O trabalho enfatiza a importância de desenvolver direções novas, eficientes e criativas para o futuro da pesquisa em inteligência artificial
Mais detalhes podem ser encontrados no artigo

1 comentários

GN⁺ 2025-10-10

Comentários do Hacker News

Recomendo fortemente que todo mundo leia com muita atenção a postagem do blog dos organizadores do ARC-AGI sobre o HRM
Com as mesmas condições de aumento de dados/“test time training”, até um Transformer básico chega bem perto dos “resultados impressionantes” relatados para o HRM
Este artigo também parece estar se comparando no ARC-AGI sob condições semelhantes
Eu também quero obter excelente capacidade de raciocínio com modelos menores
Mas primeiro é preciso entender o que o ARC-AGI está avaliando, quais são as configurações comuns usadas para comparar LLMs comerciais e quais são as configurações especiais usadas no HRM ou neste artigo
O nome do benchmark tende a criar expectativas exageradas, e vejo isso tanto no HRM quanto neste artigo
- O artigo do TRM já aborda essa postagem do blog
  Não acho necessário analisar o texto sobre o HRM em tanto detalhe, e o TRM tem uma estrutura mais disentangled em relação ao HRM, então ablations ficam muito mais fáceis
  Acho que o verdadeiro valor do blog do HRM da arcprize está em enfatizar a importância dos testes de ablation
  O ARC-AGI foi concebido como um desafio para todo tipo de modelo
  A suposição era de que seria necessário algo como a capacidade de raciocínio de um grande modelo de linguagem do porte de um LLM para resolvê-lo, mas isso parece ter sido um mal-entendido
  Quero perguntar se a questão é que HRM e TRM foram treinados de forma especializada em um pequeno dataset de amostras do ARC-AGI, enquanto os LLMs não foram
  Ou estou curioso para saber qual diferença está sendo destacada
Em vez de um “Transformer básico”, é mais um “arquitetura semelhante a Transformer com estrutura recorrente”
Ainda assim, isso continua sendo um tema experimental interessante
Certamente há vantagens, mas não acho que seja realmente um Transformer melhor
Parece estar recebendo mais atenção do que merece no momento
Isso me fez pensar mais uma vez na analogia entre filtros Finite Impulse Response (FIR) (LLMs tradicionais) e filtros Infinite Impulse Response (IIR) (modelos recursivos)
Não é uma analogia brilhante nem original, mas, para obter características de cutoff semelhantes, um FIR precisa de muito mais coeficientes do que um IIR
Por exemplo, é possível converter um IIR em FIR com o método de projeto por janela, e nesse caso a estrutura recursiva é desenrolada e interrompida em uma profundidade finita
De forma parecida, ao desenrolar o TRM ele vira uma repetição de blocos de attention+ff numa arquitetura tradicional de LLM, só que sem feedback global
Além disso, ao contrário de um IIR real, o TRM implementa um cutoff finito, então estruturalmente ele parece mais próximo de um FIR/LLM
Também seria interessante compará-lo com uma estrutura desenrolada semelhante
Mas pode ser só uma ideia surgida de privação de sono
- Quero apresentar os Deep Equilibrium Models
  Eles partem da observação de que, na maioria dos modelos profundos de sequência, as camadas ocultas convergem para algum ponto fixo, e então passam a encontrar diretamente esse ponto fixo por root finding
  Essa abordagem é equivalente a executar uma rede feedforward de profundidade infinita com pesos compartilhados, e ainda permite backpropagation por diferenciação implícita
  (link do artigo no arXiv)
  O ponto interessante dos modelos de equilíbrio profundo é que uma única camada pode se tornar equivalente a uma rede de deep learning com várias camadas empilhadas
  Basta haver recorrência
  O número de iterações se ajusta por conta própria de acordo com a dificuldade da tarefa
Implementei o HRM com fins educacionais e obtive bom desempenho em pathfinding
Depois fiz experimentos de ablation e cheguei à mesma conclusão da equipe do ARC-AGI, isto é, que a arquitetura do HRM em si não tem um papel tão importante
Fiquei um pouco decepcionado
Acho que há algum potencial em latent space reasoning
Repositório da implementação
- Acho que foi um excelente trabalho, obrigado por organizar isso e compartilhar
  Reproduções e compartilhamento de experiências são realmente muito importantes
Fico curioso se o resultado apresentado no artigo no arXiv significa que isso realmente pode escalar
Se esse resultado também valer em aplicações reais, com certeza seria revolucionário
Por outro lado, se for esse o caso, também dá para imaginar de forma curiosa que os investimentos astronômicos atuais em infraestrutura de data centers de IA poderiam se tornar irrelevantes de uma hora para outra
(claro, não por muito tempo)
- Ao falar de HRM, é essencial consultar a análise do HRM da arcprize
  Este artigo parece uma versão simplificada do HRM e parece também ter levado em conta justamente o estudo de ablation dessa análise
  Também é importante notar que o HRM não é uma arquitetura amplamente aplicável como os transformer LLMs comuns
  Ainda não há evidência de que o HRM funcione em tarefas gerais de IA generativa
  Estou lendo o artigo, mas esta arquitetura também parece adequada para tarefas parecidas com as do HRM, como raciocínio espacial do tipo ARC-AGI, e ainda precisa ser integrada a uma arquitetura mais geral
- Acho que o paradoxo de Jevons se aplica aqui
  Se o custo de IA/energia cair, a demanda sobe ainda mais
- A ideia de a bolha da IA estourar porque a tecnologia de IA ficou boa demais e a eficiência subiu de forma extrema parece plausível
- Sobre a ideia de que os investimentos em infraestrutura de data centers de IA poderiam se tornar irrelevantes
  Computação em GPU não serve só para inferência de texto, e especialmente a demanda por geração de vídeo parece difícil de saturar por um bom tempo, mesmo que haja avanços revolucionários
- Se esses resultados realmente aparecerem, a indústria quase imediatamente adotará essa abordagem para treinar modelos ainda maiores e mais poderosos
“Com 7M de parâmetros, o TRM alcança 45% de acurácia de teste no ARC-AGI-1 e 8% no ARC-AGI-2, superando a maioria dos LLMs como Deepseek R1, o3-mini e Gemini 2.5 Pro, com menos de 0,01% dos parâmetros”
Realmente impressionante
Aliás, em termos estruturais isso parece semelhante ao Hierarchical Temporal Memory proposto por Jeff Hawkins em “On Intelligence”
(claro, sem as características de sparsity, mas os elementos hierárquicos/temporais são parecidos)
Wiki do HTM, Numenta
- Acho que a ausência de sparsity pode ser o calcanhar de Aquiles da abordagem atual dos LLMs
Resumo
O Hierarchical Reasoning Model (HRM) é uma abordagem original que executa recursivamente duas pequenas redes neurais em ritmos diferentes
Ele foi criado com inspiração biológica e, com um modelo pequeno (27M de parâmetros) e dados pequenos e escassos (cerca de 1000 exemplos), supera grandes LLMs em quebra-cabeças difíceis como Sudoku, Maze e ARC-AGI
A arquitetura ainda não é totalmente compreendida e talvez o desempenho não seja o ideal
Nós propomos uma forma recursiva de raciocínio muito mais simples (TRM, Tiny Recursive Model), e esse modelo mostra uma capacidade de generalização muito superior à do HRM com uma pequena rede de 2 camadas
Com apenas 7M de parâmetros, ele supera grandes LLMs (45% de acurácia de teste no ARC-AGI-1 e 8% no ARC-AGI-2, com menos de 0,01% dos parâmetros)
- O resultado de superar grandes LLMs com apenas 7M de parâmetros é bastante atraente
  Mas fico curioso se não existe alguma limitação escondida nisso
É interessante ver que o efeito da recorrência produz bons resultados em problemas ARC
Se você tem interesse em recorrência, vale a pena conferir também os artigos abaixo, que aplicam esse modelo a outros problemas
- Modelagem de linguagem: Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach
- Resolução de quebra-cabeças: A Simple Loss Function for Convergent Algorithm Synthesis using RNNs
- Síntese de algoritmos end-to-end: End-to-end Algorithm Synthesis with Recurrent Networks, Can You Learn an Algorithm? Generalizing from Easy to Hard Problems with Recurrent Networks
- Abordagens gerais: Think Again Networks and the Delta Loss, Universal Transformers, Adaptive Computation Time for Recurrent Neural Networks
No geral, gosto dessa família transformer RNN
Essencialmente, ela funciona como um EBM que aprende uma paisagem de energia e é puxado para a resposta
Dá a sensação de resolver problemas discretos de forma gradualmente mais convexa
Lembra neural cellular automata, flow matching/diffusion e coisas do tipo
Essa abordagem também parece promissora para problemas de controle
Ela continua se movendo no espaço de estados e, em cada etapa, escolhe apenas ações válidas
Tenho a impressão de que isso é essencialmente a mesma coisa que um Chain-of-Thought (CoT) em neuralese
z/z_L é explicitamente chamado de reasoning embedding, e ele muda ou é mantido ao longo do processo recursivo enquanto vai refinando gradualmente o embedding de saída (z_H/y)
Não seria isso uma verdadeira CoT/cadeia de raciocínio em neuralese?

Menos é mais: raciocínio recursivo com redes menores

Visão geral

Diferenças em relação a pesquisas anteriores

Como o TRM funciona

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News