LADDER: melhoria da capacidade de resolução de problemas de LLMs por meio de autoaperfeiçoamento
-
Introdução ao LADDER: LADDER é um framework em que grandes modelos de linguagem (LLMs) melhoram por conta própria sua capacidade de resolver problemas ao transformar gradualmente problemas complexos em formas mais simples. Sem usar datasets existentes nem feedback humano, ele aproveita a própria capacidade do modelo para gerar transformações de problemas mais fáceis.
-
Efetividade: o LADDER elevou a acurácia do Llama 3.2 3B na área de integração matemática de 1% para 82%, e permitiu que o Qwen2.5 7B Deepseek-R1 Distilled alcançasse 73% na fase classificatória do MIT Integration Bee.
-
Introdução ao TTRL: TTRL (Test-Time Reinforcement Learning) é um método que realiza aprendizado por reforço no momento da inferência por meio de transformações do problema de teste. Com isso, o Qwen2.5 7B Deepseek-R1 Distilled registrou uma pontuação de ponta de 90% na fase classificatória do MIT Integration Bee, superando o desempenho do OpenAI o1.
-
Importância dos resultados: esses resultados mostram que aprendizado autônomo e estratégico pode alcançar melhorias significativas de capacidade mesmo sem escalonamento de arquitetura ou supervisão humana.
1 comentários
Comentários do Hacker News
Fico curioso sobre o que está acontecendo esta semana. Nos últimos dois dias, vi vários avanços interessantes em machine learning
Isso me fez lembrar de uma citação do famoso matemático da teoria dos números Hendrik Lenstra
A abordagem deles de aprendizado por reforço em tempo de teste me parece um pouco suspeita
Demonstra a eficácia do LADDER no tema de integração matemática. Aumenta a precisão do Llama 3.2 3B de 1% para 82%
Frank Herbert sabia disso. Esta é uma implementação da autoinspeção recursiva dos mentats descritos em Duna
Treinamento/aprendizado por reforço em tempo de teste é uma abordagem adequada para a IA matemática do futuro. Provavelmente é uma das poucas maneiras de usar uma quantidade enorme de computação em um problema específico. O Alphaproof já fazia isso, mas é bom ver isso ser feito de novo com bons resultados
Fugindo um pouco do assunto, o site deles é lindo. Parece que encontrei uma mina de ouro
Alguns nomes são bons demais
No fim do artigo, eles mencionam duas questões da prova classificatória do MIT Integration Bee 2025. Dizem que o sistema continuou produzindo respostas erradas