Modelo de Raciocínio Hierárquico

(arxiv.org)

6 pontos por GN⁺ 2025-07-28 | 1 comentários | Compartilhar no WhatsApp

O Modelo de Raciocínio Hierárquico (Hierarchical Reasoning Model, HRM) supera as limitações das técnicas tradicionais de Chain-of-Thought baseadas em LLM na execução de comportamentos complexos orientados a objetivos pela IA, como decomposição instável de tarefas, grande demanda de dados e problemas de latência
Inspirado no conceito de processamento hierárquico do cérebro humano, o HRM introduz uma nova estrutura recorrente composta por um módulo de alto nível, responsável por planos abstratos de alta dimensão, e um módulo de baixo nível, que processa rapidamente operações detalhadas
O HRM apresenta desempenho excepcional em problemas de raciocínio de alta dificuldade com cerca de 27 milhões de parâmetros e apenas 1.000 amostras de treinamento
Sem pré-treinamento nem dados de Chain-of-Thought, alcança precisão quase perfeita em tarefas como Sudoku complexo e busca do caminho ótimo em grandes labirintos
O HRM mostra alta eficiência e desempenho superiores em comparação com grandes modelos existentes, sugerindo um possível ponto de virada para computação geral e sistemas de inteligência geral

Visão geral

Na área de IA, raciocínio (reasoning) é uma tarefa importante no processo de projetar e executar comportamentos complexos orientados a objetivos. Os grandes modelos de linguagem (LLMs) existentes usam principalmente a técnica de Chain-of-Thought (CoT), mas ela tem limitações como decomposição frágil de tarefas, alta exigência de dados e elevada latência.

Com base na estrutura hierárquica e de processamento em múltiplas escalas temporais do cérebro humano, foi proposto o Hierarchical Reasoning Model (HRM)
O HRM é composto por dois módulos recorrentes dependentes (alto nível/baixo nível) e realiza raciocínio sequencial em um único forward pass, sem supervisão explícita do processo intermediário
Com 27 milhões de parâmetros, apresentou desempenho de ponta usando apenas 1.000 amostras

Limitações estruturais do deep learning e dos LLMs atuais

O deep learning começou elevando a capacidade de representação ao aumentar a profundidade das redes, mas na prática LLMs baseados em Transformer têm estruturas rasas e limitações de profundidade
Transformers de profundidade fixa enfrentam restrições fundamentais de complexidade computacional em problemas de raciocínio lógico complexo ou algorítmico
O Chain-of-Thought depende de decomposição em etapas baseada em linguagem, definida por humanos, e por isso todo o raciocínio pode ruir facilmente por causa de erros ou de uma ordem incorreta
O CoT também traz problemas de grande volume de dados, geração de muitos tokens e execução lenta

Princípios de projeto do HRM

Projetado para imitar o processamento hierárquico e em múltiplas escalas temporais do cérebro humano

Processamento hierárquico: o cérebro processa informações em regiões superiores e inferiores de forma hierárquica e temporalmente separada
Separação de escalas temporais: regiões superiores operam mais lentamente, enquanto regiões inferiores operam mais rapidamente, permitindo orientação eficiente
Conexões recorrentes: por meio de feedback reverso repetido, ajusta finamente as representações internas e viabiliza raciocínio profundo

Arquitetura do modelo HRM

Composto por rede de entrada, módulo recorrente de baixo nível, módulo recorrente de alto nível e rede de saída
A entrada é embutida em vetores
O módulo de baixo nível é atualizado várias vezes com base em seu estado anterior, no estado atual do módulo de alto nível e na entrada
O módulo de alto nível recebe o estado final do módulo de baixo nível ao fim de cada cycle e é atualizado apenas uma vez
Ao final, a predição é produzida a partir do estado do módulo de alto nível

Mecanismo de convergência hierárquica (hierarchical convergence)

RNNs tradicionais convergem rápido demais, tornando operações adicionais pouco úteis
No HRM, o RNN de baixo nível converge de forma estável até um ponto de equilíbrio local em cada cycle; então o módulo de alto nível fornece um novo contexto para reiniciar o módulo de baixo nível
Graças à estrutura de convergência hierárquica, operações profundas (com muitas etapas) se tornam possíveis, e a velocidade de convergência também pode ser controlada adequadamente

Treinamento com gradiente aproximado de 1 etapa

Ao depender de BPTT (Backpropagation Through Time), é necessário armazenar estados de muitas etapas, o que impõe alto custo de memória
O HRM treina aproximando o gradiente em cada módulo de alto e baixo nível apenas com o estado final, mantendo uso de memória O(1) e permitindo uma implementação mais biologicamente plausível
Matematicamente, baseia-se no princípio do Deep Equilibrium Model (DEQ)

Deep supervision & Adaptive Computation Time (ACT)

Deep supervision

Fornece feedback periódico, gera saída em cada forward pass (segment) e calcula separadamente a perda de treinamento de cada segment
Ao passar para o próximo segment, separa o estado do grafo (detach), aumentando a estabilidade e o desempenho da estrutura recorrente profunda

Adaptive Computation Time (ACT)

Introduzindo o princípio humano de alternância entre pensamento automático e deliberado, determina dinamicamente, com base em aprendizado via Q-learning, o número de repetições de cada segment
O Q-head prevê os valores Q das ações halt/continue em cada segment
O Q-learning calcula a perda total considerando ao mesmo tempo a precisão da predição e o ponto ótimo de parada

Desempenho e características da arquitetura

Em Sudoku-Extreme (9x9), grandes labirintos (30x30) e outros problemas em que modelos baseados em CoT falharam, o HRM resolveu quase perfeitamente com cerca de 1.000 exemplos
No benchmark ARC-AGI (Abstraction and Reasoning Corpus), alcançou 40,3% com apenas 27M de parâmetros (CoT-based o3-mini-high 34,5%, Claude 3.7 8K 21,2%)
É possível obter ganhos adicionais aumentando apenas a quantidade de computação (steps) na fase de inferência, permitindo aproveitar recursos computacionais sem modificar a arquitetura nem retreinar o modelo
O HRM utiliza internamente uma arquitetura sequence-to-sequence baseada em Transformer,
- após a camada de embedding, tanto o módulo de baixo nível quanto o de alto nível usam blocos Transformer encoder-only
- aplica recursos de LLMs modernos (Rotary Positional Encoding, Gated Linear Units, RMSNorm etc.)
- os parâmetros usam inicialização truncated LeCun Normal, com otimizador Adam-atan2 + taxa de aprendizado fixa

Conclusão

O HRM, com sua estrutura recorrente hierárquica inspirada na biologia e métodos de aprendizado eficientes e profundos, comprova capacidade superior de raciocínio geral em comparação com abordagens existentes, mesmo com poucos dados e poucos parâmetros
É um caso importante que mostra o potencial de evolução para sistemas de computação geral e inteligência que superem as limitações de profundidade do deep learning/LLMs

1 comentários

GN⁺ 2025-07-28

Comentários do Hacker News

Ao passar rapidamente pelo resumo e pela introdução, os resultados do modelo de raciocínio hierárquico (HRM) parecem realmente surpreendentes
- É impressionante que, usando apenas 1.000 exemplos de entrada-saída e sem pré-treinamento nem supervisão com Chain-of-Thought (CoT), o HRM resolva problemas que nem mesmo os LLMs de ponta atuais conseguem resolver
- Por exemplo, ele registra uma precisão quase perfeita em Sudoku complexos (Extreme Full) e na busca do caminho ótimo em labirintos 30x30 (abordagens CoT ficam em 0% de precisão nesses casos)
- No desafio ARC AGI (Abstraction and Reasoning Corpus), o HRM também alcança 40,3% com 27M de parâmetros e uma grade 30x30 (900 tokens), superando modelos muito maiores (o3-mini-high, Claude 3.7 8K etc.)
- Pretendo ler este artigo com atenção
Acho muito suspeito que um modelo de 27M de parâmetros seja treinado "do zero" com apenas 1.000 pontos de dados
- Também não entendo por que eles não comparam com outros modelos treinados nas mesmas condições (mesma preparação de dados)
- Em vez disso, eles comparam apenas com LLMs externos de uso geral, que talvez nunca tenham usado esses 1.000 exemplos no treinamento
- Essa abordagem passa uma forte sensação de overfitting
Exato!
- O HRM usa dois módulos recorrentes interdependentes (módulo superior: planejamento abstrato e lento; módulo inferior: operações rápidas e detalhadas)
- Graças a essa estrutura, o HRM consegue ter grande capacidade de computação profunda com poucos parâmetros (27 milhões) e um dataset pequeno (~1.000 exemplos)
- O HRM supera modelos CoT de última geração em benchmarks difíceis (Extreme Sudoku, Maze-Hard, ARC-AGI)
- Por exemplo, 96% de precisão em Sudoku e 40,3% no ARC-AGI-2, à frente até de modelos grandes como Claude 3.7 e DeepSeek R1
- É preciso entender como esses resultados são possíveis... vou tentar rodar isso no meu computador
"Depois que a etapa T termina, o módulo superior (módulo H) recebe o estado resultante do módulo inferior e faz uma atualização, reiniciando a trajetória de cálculo do módulo inferior e induzindo uma nova fase de convergência"
- Quando o RNN inferior termina o cálculo, o módulo superior avalia o resultado, fornece um novo contexto ao RNN inferior e repete o loop
- A estrutura é tal que o RNN inferior realiza repetidamente aprendizado por backpropagation, enquanto o módulo superior intervém periodicamente para ajustar até obter uma saída melhor
- "Evidências da neurociência sugerem que esses modos cognitivos compartilham circuitos neurais como o córtex pré-frontal e a default mode network. Ou seja, o cérebro ajusta dinamicamente o 'tempo de execução' desses circuitos de acordo com a complexidade da tarefa e a possibilidade de recompensa"
- Inspirados nesse mecanismo cerebral, os autores introduziram no HRM uma estratégia de adaptive halting, ou seja, uma abordagem de 'pensar rápido/devagar'
- Em outras palavras, é um scheduler que ajusta automaticamente o uso de recursos computacionais conforme a dificuldade da tarefa e os dados fornecidos
- Gosto muito de como o artigo cita, ao longo do texto, paralelos concretos com o cérebro real
- Acho que AGI só será possível combinando esses primitivos de forma extremamente complexa e usando inúmeros 'módulos' especializados, com cooperação, competição, comunicação e concorrência
- O cérebro humano também deve funcionar assim para ter alcançado capacidades cognitivas de forma evolutiva; em tecido biológico lento e de baixo consumo, essa parece ser a única solução
Assim que li sobre a divisão da estrutura hlm/llm, pensei imediatamente na estrutura do cérebro humano
É preciso manter uma visão cética
- Especialmente porque ideias como contornar o backpropagation são muito interessantes
- Mas ainda parece não ter passado por peer review, e a seção de resultados também não é específica quanto ao método de avaliação, com os números aparecendo apenas na figura principal
- Os números também divergem do leaderboard de benchmarks (ARC2) na prática (os líderes atuais estão em 19%, enquanto o HRM fica na faixa de 5%)
- Dá para verificar diretamente em https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
O código dos autores está disponível em https://github.com/sapientinc/HRM
- Na área de AI/ML, um preprint com código funcional vale muito mais do que um artigo oficialmente revisado por pares
- Um preprint pode ser verificado e reproduzido por qualquer pessoa, enquanto o peer review padrão depende de um número minúsculo de revisores ocupados (e às vezes mal remunerados)
- Se os autores estiverem certos, isso acabará sendo naturalmente reconhecido; se não, será esquecido
- Na prática, é uma validação distribuída e global em estilo open source; pode ser imperfeita, mas é muito mais eficaz do que a revisão tradicional de artigos
Em artigos de machine learning, uma postura cética saudável é essencial
- Com o aumento do número de artigos, o peer review tradicional ficou enfraquecido
- Muitas vezes os revisores não têm especialização suficiente na área em questão ou são estudantes
- Na prática, o peer review real é o processo em que outros especialistas implementam de forma independente os resultados de um artigo no arXiv, por exemplo, e depois os citam em trabalhos posteriores
- Esta própria thread de comentários é, de fato, peer review
Acho que a melhor forma de fazer uma verificação cética é por meio de experimentos de reprodução e comparação de resultados
- No próximo mês vou tirar 10 dias de férias, então pretendo ver o que os autores disponibilizaram, como código-fonte e datasets, e tentar reproduzir por conta própria
Julgar algo apenas porque ainda não passou por peer review é uma postura precipitada
- Os artigos do mamba1 e mamba2 também não haviam passado por peer review no início
- Ainda assim, concordo que alegações fortes exigem evidências fortes, e no momento estou tentando reproduzir os resultados localmente
Esperar que já tenha peer review no momento em que o artigo acabou de ser publicado me parece mostrar desconhecimento do processo
- Para submeter uma pesquisa a peer review, primeiro ela precisa ser 'publicada'
Como psicólogo cognitivo, penso há muito tempo que esse é, em geral, o tipo de direção de que a IA precisa
- Veja a Fuzzy Trace Theory[1]; a memória cria representações em vários níveis, de palavra por palavra (detalhe) até resumo (gist), e as combina, recupera e usa
- A combinação entre representação resumida e informação detalhada permite generalização poderosa e caminhos flexíveis de recuperação
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
Se entendi corretamente, o HRM olha para 1.000 pares de Sudoku (quebra-cabeça, solução) e aprende sozinho as regras
- Depois disso, consegue resolver novos quebra-cabeças nunca vistos com 55% de precisão
- Se for treinado com um milhão de exemplos, chega perto da perfeição
- O surpreendente é que não há qualquer pré-treinamento
- Em contraste, o AlphaZero embute as regras (xadrez, go) e aprende apenas a estratégia, enquanto o HRM aprende até as regras por conta própria
- Pretendo conferir diretamente no repositório do GitHub
- O AlphaZero embute as regras, mas o MuZero e modelos posteriores funcionam sem embutir as regras
  - O MuZero supera o AlphaZero em desempenho, e o EfficientZero reduz até a quantidade de aprendizado necessária
  - Eles se saem muito bem em ambientes diversos, como jogos de Atari
- Testando diretamente com o código-fonte:
  - Para reprodutibilidade científica, eu pediria que especificassem as versões das bibliotecas (um pyproject.toml seria melhor)
  - Os 1.000 exemplos de Sudoku na prática são ampliados com um algoritmo de permutação codificado manualmente, virando de fato um dataset de cerca de um milhão de exemplos
    (ou seja, na prática não são apenas 1.000)
Estou ansioso/com um pouco de medo para ver se o modelo HRM será logo combinado com MoE (Mixture of Experts)
- Como a pressão econômica para tornar os LLMs mais poderosos é enorme, acho que essa combinação pode acontecer em questão de meses
- O artigo trata apenas de quebra-cabeças como Sudoku, e não aborda perguntas e respostas ou os principais casos de uso de LLMs
- É uma pena que não discuta a combinação com a próxima geração de LLMs
- O MoE tem relação com clusters conceituais, mas no futuro profundidade do conceito, número de níveis hierárquicos e tempo de aprendizado também precisarão entrar no latent space, algo parecido com a diferença entre como lemos um livro de matemática e como lemos uma notícia curta
- O HRM foi projetado para quebra-cabeças em que um pequeno número de regras se entrelaça de forma complexa
  - Como há poucas regras, é possível aprender com um modelo pequeno, e como o modelo é pequeno, ele pode ser executado repetidamente para lidar com todas as interações
  - Em modelagem de linguagem, é preciso armazenar inúmeras expressões e suas relações, então acho difícil fazer algo semelhante com um modelo tão pequeno
  - Felizmente, no caso da linguagem, em geral já se obtêm resultados úteis após apenas algumas etapas de computação
  - Se colocarmos um modelo do tamanho de um LLM em um loop iterativo no estilo HRM, ele ficará lento demais para uso prático
  - Talvez dê para imaginar uma combinação entre o LLM principal e um HRM pequeno para tratar separadamente apenas tarefas de satisfação de restrições
- Também fico um pouco desconfiado pelo fato de quase não haver discussão sobre outras aplicações além de Sudoku ou sobre limitações
Ao folhear o artigo, pensei que até sistemas MoE LLM (autoregressivos, por difusão, baseados em energia, seja qual for a abordagem) também poderiam ser hierarquicamente aninhados com uma estrutura HRM
- Com isso, talvez também seja possível criar novos benchmarks de eficiência e qualidade
Avalio positivamente a inspiração em neurociência, e no geral não parece haver nada especialmente problemático no artigo
- Não fiz experimentos de replicação por conta própria, mas o que os autores construíram parece ser, no mínimo, um solucionador de problemas de satisfação de restrições potencialmente geral
- É um sistema que aprende até as regras de restrição a partir de poucos exemplos e, se isso for verdade, já é suficientemente interessante por si só
- Ainda assim, a comparação direta com modelos CoT não me parece muito convincente
- Em princípio, modelos CoT podem resolver qualquer problema complexo, mas o HRM precisa ser treinado separadamente para cada quebra-cabeça especializado, então é difícil sustentar uma alegação de generalidade
- Por exemplo, o fato de o Stockfish jogar xadrez melhor que um LLM não significa necessariamente que o Stockfish seja mais 'inteligente'
- A ideia é boa, mas senti um leve exagero de marketing no artigo
- Concordo! Mesmo isso por si só já seria uma conquista enorme
  - É preciso conter o hype excessivo, mas é surpreendente obter esse tipo de resultado com um modelo tão pequeno
  - Para problemas específicos, modelos customizados são mais eficientes e confiáveis, então não é necessário impor estruturas ineficientes em nome da generalidade
- Você disse que modelos CoT podem, em essência, resolver qualquer tarefa complexa, mas queria saber em que isso se baseia
  - Também duvido que exista evidência matemática disso
  - Pessoalmente, acho que o próprio CoT é uma espécie de gambiarra para contornar as limitações dos LLMs atuais
Se este artigo estiver correto, o impacto será muito grande, então estou acompanhando atentamente
- O conceito básico parece razoável, mas pretendo observar com cautela até que apareça validação de terceiros
- Quero muito verificar isso na prática por conta própria