LADDER: LLM que se autoaperfeiçoa com decomposição recursiva de problemas

(arxiv.org)

1 pontos por GN⁺ 2025-03-08 | 1 comentários | Compartilhar no WhatsApp

LADDER é um framework que melhora a capacidade de resolução de problemas de LLMs fazendo-os descer para versões mais fáceis de problemas difíceis e depois subir de volta, sem feedback humano nem dados curados
O ponto central é criar um gradiente de dificuldade até um nível que o modelo consiga resolver e usar as respostas de subproblemas verificáveis como degraus para solucionar problemas mais difíceis
Em tarefas de integração matemática, o Llama 3.2 3B melhorou a precisão em problemas de nível universitário de 1% para 82%, embora a seção de contribuições também indique valor inicial de 2%
O Qwen2.5 7B Deepseek-R1 Distilled alcançou 73% na fase classificatória do MIT Integration Bee usando apenas LADDER, superando os 42% do GPT-4o e o desempenho humano típico de 15% a 30%
O TTRL aplicou transformação de problemas e aprendizado por reforço também no momento do teste, elevando a precisão no mesmo exame de 73% para 90% e atingindo desempenho de ponta acima do OpenAI o1

Gargalo de aprendizado que o LADDER mira

O aprendizado por reforço é eficaz no treinamento de LLMs, mas exige tarefas verificáveis que correspondam à capacidade atual do modelo e cujo resultado possa ser conferido
Se o problema for difícil demais para a capacidade do modelo, pode ocorrer colapso, em que o aprendizado para ou o desempenho piora
Em áreas de raciocínio complexo, a distância entre tarefas fáceis e avançadas é grande, então é importante estruturar a dificuldade de forma gradual para permitir aprendizado progressivo
O LADDER parte de problemas complexos e faz o modelo criar várias versões mais fáceis, com cada versão podendo gerar novas variações inferiores por meio de decomposição recursiva de problemas
Quando desce até problemas que o modelo consegue resolver de forma estável, essas respostas passam a ser usadas como degraus para resolver variações mais difíceis

Aprendizado autônomo e condições de verificação

Em vez de datasets ou feedback criados por humanos, o modelo gera um gradiente de dificuldade natural com base em sua capacidade existente
O treinamento exige recompensas verificáveis, e este estudo usa integração numérica para confirmar as respostas
O framework permite que o modelo avalie seu próprio progresso e ajuste o caminho de aprendizado, viabilizando o uso de aprendizado por reforço sem intervenção humana
A decomposição recursiva de problemas e o aprendizado autônomo são combinados com aprendizado por reforço baseado em GRPO
A geração e verificação de transformações de problemas funcionam quando existe um mecanismo de verificação confiável

Benchmark de integração e resultados do TTRL

No benchmark de integração matemática, o LADDER mostrou ganhos de desempenho além do que seria possível com o pass@k sampling padrão
O Llama 3.2 3B chegou a 82% de precisão em problemas de integração de nível universitário
- No resumo, a precisão inicial aparece como 1%
- Na seção de contribuições, a precisão inicial aparece como 2%
O Qwen2.5 7B Deepseek-R1 Distilled alcançou 73% de precisão na fase classificatória do MIT Integration Bee de 2025 após a aplicação do LADDER
- GPT-4o: 42%
- Desempenho humano típico: 15% a 30%
O TTRL (Test-Time Reinforcement Learning) é um processo de microaprendizado que cria transformações de problemas dinamicamente no momento do teste e aplica aprendizado por reforço a cada instância testada
O TTRL reutiliza no momento da inferência o mecanismo de verificação usado no treinamento para refinar ainda mais as respostas
No MIT Integration Bee, o TTRL elevou os 73% obtidos com LADDER sozinho para 90%, alcançando desempenho de ponta acima do OpenAI o1
Esse resultado mostra que grandes ganhos de desempenho são possíveis com decomposição estratégica de problemas e autoaprendizado baseado em verificação, mesmo sem expansão de arquitetura ou supervisão humana

1 comentários

GN⁺ 2025-03-08

Opiniões no Hacker News

É até curioso ver tantos avanços em ML aparecendo nesta semana
Só nos últimos dois dias, vi pelo menos 3 resultados interessantes e promissores, e a equipe de pesquisa do Google mostrou que é possível combinar redes neurais e CLA por meio de portas lógicas digitais
Isso abre até a possibilidade de reduzir vários problemas não lineares a circuitos digitais simples e eficientes, e hoje também apareceu na primeira página do HN: https://news.ycombinator.com/item?id=43286161
Com tantos resultados de dar nó na cabeça sobre redes neurais, lógica e inteligência em geral, fico imaginando quão perto estamos de realmente entender, a partir de primeiros princípios, como a inteligência funciona
- Esse tipo de coisa era quase um segredo de ofício que as pessoas vinham escondendo no último ano mais ou menos
  Depois do lançamento open source do DeepSeek, isso perdeu muito valor, e parece que as empresas estão preferindo converter em ganho de reputação antes que alguém chegue primeiro
  Em setembro de 2023, fiz a mesma coisa com fine-tuning do Llama 2, mas não consegui aprovação para compartilhar com ninguém
- É interessante ver muitas novas abordagens em AI/ML depois que o setor finalmente percebeu que só escalar de forma ingênua não leva à AGI
  Isso tem a vantagem de permitir que players menores também concorram e contribuam com inovação real, em contraste com o clima que grandes players como OpenAI/MS tentaram criar por anos, de que o open source jamais conseguiria alcançá-los
  Nos últimos anos, recursos, tempo e dinheiro demais foram desperdiçados apenas em escalar computação pura em GPUs
  Gary Marcus vinha apontando isso há anos, e os resultados decepcionantes do GPT-4.5, treinado por cerca de 2 anos, parecem servir como evidência
- Agora estamos numa situação parecida com um pomar novo cheio de frutas fáceis de colher
  Independentemente da utilidade final, há brilho, muito hype, grandes surpresas e tanto dinheiro entrando que é difícil acompanhar
  Por isso, muitas das pessoas mais competentes se interessaram, e naturalmente há uma concentração de tentativas de produzir avanços
- Avanços em LLMs estão virando como novos avanços em baterias
  Por enquanto, só falta a capacidade de quantificar os trade-offs
- Parece ter relação com o fato de conferências importantes começarem a receber submissões em breve
  Algumas conferências proíbem a divulgação de preprints durante as semanas anteriores à submissão, então é possível que as pessoas tenham corrido para fazer upload
Isso me lembra uma frase do famoso matemático de teoria dos números Hendrik Lenstra: “Para todo problema insolúvel, existe um problema mais simples que também é insolúvel”
- Fico curioso se essa citação é real
  Conheço a frase de George Pólya, “se você não consegue resolver o problema proposto, tente primeiro resolver um problema relacionado mais simples”, mas não consegui encontrar a fonte da citação de Lenstra
- Isso não produz uma indução bonita
  A menos que tenha sido dito como insulto
A abordagem deles de aprendizado por reforço em tempo de teste parece um pouco suspeita
Pelo que entendi, o TTRL faz o modelo de linguagem gerar versões mais fáceis dos casos de teste e roda aprendizado por reforço nesses problemas simplificados, esperando que o desempenho no problema original também melhore
O problema é que eles usam um integrador numérico para verificar os problemas simplificados
Dá para imaginar situações em que são gerados problemas quase iguais ao original, e o modelo acaba treinando perto dos casos de teste já sabendo a resposta
Parece treinamento no conjunto de teste, embora o restante do artigo esteja ok
- Acho que a tarefa que o modelo resolve é integração simbólica
  É um problema difícil de resolver mesmo que o modelo possa usar uma ferramenta de integração numérica no próprio problema original
Eles mostraram que o LADDER é eficaz em integração matemática e dizem que aumentaram a acurácia do Llama 3.2 3B em problemas de nível de graduação de 1% para 82%
- Também vale considerar que sistemas modernos de reescrita de termos têm desempenho muito bom em integração simbólica: https://rulebasedintegration.org/
Frank Herbert já sabia disso
Basicamente, isso se aproxima de implementar a autoverificação recursiva dos mentats em Dune
Aprendizado/aprendizado por reforço em tempo de teste definitivamente parece a abordagem certa para futuras IAs matemáticas
É uma das poucas maneiras de despejar uma quantidade absurda de recursos computacionais em um problema específico, por exemplo 10^5 GPUs durante vários dias, e ainda esperar progresso mesmo quando escalar inferência em tempo de teste não funciona muito bem de início
Pense, por exemplo, em rodar MCTS numa posição de Go com redes de valor/política ruins
O AlphaProof já fez algo assim, mas é bom ver isso novamente com bons resultados
- O ponto interessante é quanto desse desempenho melhorado pode ser destilado para um LLM de tamanho pequeno
  Assim, teríamos um aprimorador de política, isto é, aprendizado por reforço em tempo de teste para problemas parecidos, o que permitiria imitar melhor o modo como o AlphaZero funciona
  E também daria para ver quão poderosa uma rede neural pequena, como 32B, pode se tornar em teoria
Para referência, a equipe da Tufa Labs inclui a equipe MindsAI, conhecida pelo ARC-AGI
https://tufalabs.ai/team.html
Alguns nomes são tentadores demais: https://arxiv.org/abs/1507.02672
No fim do artigo, eles mencionam dois problemas das eliminatórias do 2025 MIT Integration Bee que o sistema continuou errando
Dizem que esses problemas estavam entre os eixos mais complexos da prova, mas o primeiro é simplesmente ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx e, no fim, basta calcular 1/3 + 1/(34) + 1/(34*5) + ...
Então não dá para chamar isso de matemática muito avançada
- Ainda assim, é um modelo 7B
  O problema não é avançado, mas o modelo também não é lá muito avançado
O fato de isso funcionar sequer um pouco já é bastante interessante, e é ainda mais interessante que pareça funcionar muito bem especialmente em matemática
Mas este artigo faz parte da tendência atual de borrar a fronteira entre treinamento e inferência
Parte do método é decompor perguntas cuja resposta não se sabe em perguntas mais fáceis, e então aplicar aprendizado por reforço nessas perguntas com GRPO e um verificador numérico
O modelo reforçado dessa forma passa a conseguir responder a mais perguntas
Gosto dessa abordagem
Humanos também fazem muito isso: remoer algo, virar a ideia na cabeça e fazer analogias
Ao acrescentar aprendizado em tempo de teste, dá para pensar muito mais do que apenas adicionando tokens ao contexto em uma inferência fixa
Assim como DeepSeek e o1/o3 mostraram que é possível ampliar capacidades gerando e avaliando tokens em tempo de inferência, também parece possível ampliar capacidades com fine-tuning automático em tempo de inferência
Espero que, quando essas técnicas se consolidarem, surjam novas formas de falar e pensar sobre elas
Em certo nível, todas parecem parte do mesmo processo fundamental e, de qualquer forma, são realmente muito legais

LADDER: LLM que se autoaperfeiçoa com decomposição recursiva de problemas

Gargalo de aprendizado que o LADDER mira

Aprendizado autônomo e condições de verificação

Benchmark de integração e resultados do TTRL

Leituras relacionadas

1 comentários

Opiniões no Hacker News