Modelo de Raciocínio Hierárquico
(arxiv.org)- O Modelo de Raciocínio Hierárquico (Hierarchical Reasoning Model, HRM) supera as limitações das técnicas tradicionais de Chain-of-Thought baseadas em LLM na execução de comportamentos complexos orientados a objetivos pela IA, como decomposição instável de tarefas, grande demanda de dados e problemas de latência
- Inspirado no conceito de processamento hierárquico do cérebro humano, o HRM introduz uma nova estrutura recorrente composta por um módulo de alto nível, responsável por planos abstratos de alta dimensão, e um módulo de baixo nível, que processa rapidamente operações detalhadas
- O HRM apresenta desempenho excepcional em problemas de raciocínio de alta dificuldade com cerca de 27 milhões de parâmetros e apenas 1.000 amostras de treinamento
- Sem pré-treinamento nem dados de Chain-of-Thought, alcança precisão quase perfeita em tarefas como Sudoku complexo e busca do caminho ótimo em grandes labirintos
- O HRM mostra alta eficiência e desempenho superiores em comparação com grandes modelos existentes, sugerindo um possível ponto de virada para computação geral e sistemas de inteligência geral
Visão geral
Na área de IA, raciocínio (reasoning) é uma tarefa importante no processo de projetar e executar comportamentos complexos orientados a objetivos. Os grandes modelos de linguagem (LLMs) existentes usam principalmente a técnica de Chain-of-Thought (CoT), mas ela tem limitações como decomposição frágil de tarefas, alta exigência de dados e elevada latência.
- Com base na estrutura hierárquica e de processamento em múltiplas escalas temporais do cérebro humano, foi proposto o Hierarchical Reasoning Model (HRM)
- O HRM é composto por dois módulos recorrentes dependentes (alto nível/baixo nível) e realiza raciocínio sequencial em um único forward pass, sem supervisão explícita do processo intermediário
- Com 27 milhões de parâmetros, apresentou desempenho de ponta usando apenas 1.000 amostras
Limitações estruturais do deep learning e dos LLMs atuais
- O deep learning começou elevando a capacidade de representação ao aumentar a profundidade das redes, mas na prática LLMs baseados em Transformer têm estruturas rasas e limitações de profundidade
- Transformers de profundidade fixa enfrentam restrições fundamentais de complexidade computacional em problemas de raciocínio lógico complexo ou algorítmico
- O Chain-of-Thought depende de decomposição em etapas baseada em linguagem, definida por humanos, e por isso todo o raciocínio pode ruir facilmente por causa de erros ou de uma ordem incorreta
- O CoT também traz problemas de grande volume de dados, geração de muitos tokens e execução lenta
Princípios de projeto do HRM
Projetado para imitar o processamento hierárquico e em múltiplas escalas temporais do cérebro humano
- Processamento hierárquico: o cérebro processa informações em regiões superiores e inferiores de forma hierárquica e temporalmente separada
- Separação de escalas temporais: regiões superiores operam mais lentamente, enquanto regiões inferiores operam mais rapidamente, permitindo orientação eficiente
- Conexões recorrentes: por meio de feedback reverso repetido, ajusta finamente as representações internas e viabiliza raciocínio profundo
Arquitetura do modelo HRM
- Composto por rede de entrada, módulo recorrente de baixo nível, módulo recorrente de alto nível e rede de saída
- A entrada é embutida em vetores
- O módulo de baixo nível é atualizado várias vezes com base em seu estado anterior, no estado atual do módulo de alto nível e na entrada
- O módulo de alto nível recebe o estado final do módulo de baixo nível ao fim de cada cycle e é atualizado apenas uma vez
- Ao final, a predição é produzida a partir do estado do módulo de alto nível
Mecanismo de convergência hierárquica (hierarchical convergence)
- RNNs tradicionais convergem rápido demais, tornando operações adicionais pouco úteis
- No HRM, o RNN de baixo nível converge de forma estável até um ponto de equilíbrio local em cada cycle; então o módulo de alto nível fornece um novo contexto para reiniciar o módulo de baixo nível
- Graças à estrutura de convergência hierárquica, operações profundas (com muitas etapas) se tornam possíveis, e a velocidade de convergência também pode ser controlada adequadamente
Treinamento com gradiente aproximado de 1 etapa
- Ao depender de BPTT (Backpropagation Through Time), é necessário armazenar estados de muitas etapas, o que impõe alto custo de memória
- O HRM treina aproximando o gradiente em cada módulo de alto e baixo nível apenas com o estado final, mantendo uso de memória O(1) e permitindo uma implementação mais biologicamente plausível
- Matematicamente, baseia-se no princípio do Deep Equilibrium Model (DEQ)
Deep supervision & Adaptive Computation Time (ACT)
Deep supervision
- Fornece feedback periódico, gera saída em cada forward pass (segment) e calcula separadamente a perda de treinamento de cada segment
- Ao passar para o próximo segment, separa o estado do grafo (detach), aumentando a estabilidade e o desempenho da estrutura recorrente profunda
Adaptive Computation Time (ACT)
- Introduzindo o princípio humano de alternância entre pensamento automático e deliberado, determina dinamicamente, com base em aprendizado via Q-learning, o número de repetições de cada segment
- O Q-head prevê os valores Q das ações halt/continue em cada segment
- O Q-learning calcula a perda total considerando ao mesmo tempo a precisão da predição e o ponto ótimo de parada
Desempenho e características da arquitetura
-
Em Sudoku-Extreme (9x9), grandes labirintos (30x30) e outros problemas em que modelos baseados em CoT falharam, o HRM resolveu quase perfeitamente com cerca de 1.000 exemplos
-
No benchmark ARC-AGI (Abstraction and Reasoning Corpus), alcançou 40,3% com apenas 27M de parâmetros (CoT-based o3-mini-high 34,5%, Claude 3.7 8K 21,2%)
-
É possível obter ganhos adicionais aumentando apenas a quantidade de computação (steps) na fase de inferência, permitindo aproveitar recursos computacionais sem modificar a arquitetura nem retreinar o modelo
-
O HRM utiliza internamente uma arquitetura sequence-to-sequence baseada em Transformer,
- após a camada de embedding, tanto o módulo de baixo nível quanto o de alto nível usam blocos Transformer encoder-only
- aplica recursos de LLMs modernos (Rotary Positional Encoding, Gated Linear Units, RMSNorm etc.)
- os parâmetros usam inicialização truncated LeCun Normal, com otimizador Adam-atan2 + taxa de aprendizado fixa
Conclusão
- O HRM, com sua estrutura recorrente hierárquica inspirada na biologia e métodos de aprendizado eficientes e profundos, comprova capacidade superior de raciocínio geral em comparação com abordagens existentes, mesmo com poucos dados e poucos parâmetros
- É um caso importante que mostra o potencial de evolução para sistemas de computação geral e inteligência que superem as limitações de profundidade do deep learning/LLMs
1 comentários
Comentários do Hacker News
Ao passar rapidamente pelo resumo e pela introdução, os resultados do modelo de raciocínio hierárquico (HRM) parecem realmente surpreendentes
Acho muito suspeito que um modelo de 27M de parâmetros seja treinado "do zero" com apenas 1.000 pontos de dados
Exato!
"Depois que a etapa T termina, o módulo superior (módulo H) recebe o estado resultante do módulo inferior e faz uma atualização, reiniciando a trajetória de cálculo do módulo inferior e induzindo uma nova fase de convergência"
Assim que li sobre a divisão da estrutura hlm/llm, pensei imediatamente na estrutura do cérebro humano
É preciso manter uma visão cética
O código dos autores está disponível em https://github.com/sapientinc/HRM
Em artigos de machine learning, uma postura cética saudável é essencial
Acho que a melhor forma de fazer uma verificação cética é por meio de experimentos de reprodução e comparação de resultados
Julgar algo apenas porque ainda não passou por peer review é uma postura precipitada
Esperar que já tenha peer review no momento em que o artigo acabou de ser publicado me parece mostrar desconhecimento do processo
Como psicólogo cognitivo, penso há muito tempo que esse é, em geral, o tipo de direção de que a IA precisa
Se entendi corretamente, o HRM olha para 1.000 pares de Sudoku (quebra-cabeça, solução) e aprende sozinho as regras
Depois disso, consegue resolver novos quebra-cabeças nunca vistos com 55% de precisão
Se for treinado com um milhão de exemplos, chega perto da perfeição
O surpreendente é que não há qualquer pré-treinamento
Em contraste, o AlphaZero embute as regras (xadrez, go) e aprende apenas a estratégia, enquanto o HRM aprende até as regras por conta própria
Pretendo conferir diretamente no repositório do GitHub
O AlphaZero embute as regras, mas o MuZero e modelos posteriores funcionam sem embutir as regras
Testando diretamente com o código-fonte:
pyproject.tomlseria melhor)(ou seja, na prática não são apenas 1.000)
Estou ansioso/com um pouco de medo para ver se o modelo HRM será logo combinado com MoE (Mixture of Experts)
Como a pressão econômica para tornar os LLMs mais poderosos é enorme, acho que essa combinação pode acontecer em questão de meses
O artigo trata apenas de quebra-cabeças como Sudoku, e não aborda perguntas e respostas ou os principais casos de uso de LLMs
É uma pena que não discuta a combinação com a próxima geração de LLMs
O MoE tem relação com clusters conceituais, mas no futuro profundidade do conceito, número de níveis hierárquicos e tempo de aprendizado também precisarão entrar no latent space, algo parecido com a diferença entre como lemos um livro de matemática e como lemos uma notícia curta
O HRM foi projetado para quebra-cabeças em que um pequeno número de regras se entrelaça de forma complexa
Também fico um pouco desconfiado pelo fato de quase não haver discussão sobre outras aplicações além de Sudoku ou sobre limitações
Ao folhear o artigo, pensei que até sistemas MoE LLM (autoregressivos, por difusão, baseados em energia, seja qual for a abordagem) também poderiam ser hierarquicamente aninhados com uma estrutura HRM
Avalio positivamente a inspiração em neurociência, e no geral não parece haver nada especialmente problemático no artigo
Não fiz experimentos de replicação por conta própria, mas o que os autores construíram parece ser, no mínimo, um solucionador de problemas de satisfação de restrições potencialmente geral
É um sistema que aprende até as regras de restrição a partir de poucos exemplos e, se isso for verdade, já é suficientemente interessante por si só
Ainda assim, a comparação direta com modelos CoT não me parece muito convincente
Em princípio, modelos CoT podem resolver qualquer problema complexo, mas o HRM precisa ser treinado separadamente para cada quebra-cabeça especializado, então é difícil sustentar uma alegação de generalidade
Por exemplo, o fato de o Stockfish jogar xadrez melhor que um LLM não significa necessariamente que o Stockfish seja mais 'inteligente'
A ideia é boa, mas senti um leve exagero de marketing no artigo
Concordo! Mesmo isso por si só já seria uma conquista enorme
Você disse que modelos CoT podem, em essência, resolver qualquer tarefa complexa, mas queria saber em que isso se baseia
Se este artigo estiver correto, o impacto será muito grande, então estou acompanhando atentamente