1 pontos por GN⁺ 2025-03-08 | 1 comentários | Compartilhar no WhatsApp

LADDER: melhoria da capacidade de resolução de problemas de LLMs por meio de autoaperfeiçoamento

  • Introdução ao LADDER: LADDER é um framework em que grandes modelos de linguagem (LLMs) melhoram por conta própria sua capacidade de resolver problemas ao transformar gradualmente problemas complexos em formas mais simples. Sem usar datasets existentes nem feedback humano, ele aproveita a própria capacidade do modelo para gerar transformações de problemas mais fáceis.

  • Efetividade: o LADDER elevou a acurácia do Llama 3.2 3B na área de integração matemática de 1% para 82%, e permitiu que o Qwen2.5 7B Deepseek-R1 Distilled alcançasse 73% na fase classificatória do MIT Integration Bee.

  • Introdução ao TTRL: TTRL (Test-Time Reinforcement Learning) é um método que realiza aprendizado por reforço no momento da inferência por meio de transformações do problema de teste. Com isso, o Qwen2.5 7B Deepseek-R1 Distilled registrou uma pontuação de ponta de 90% na fase classificatória do MIT Integration Bee, superando o desempenho do OpenAI o1.

  • Importância dos resultados: esses resultados mostram que aprendizado autônomo e estratégico pode alcançar melhorias significativas de capacidade mesmo sem escalonamento de arquitetura ou supervisão humana.

1 comentários

 
GN⁺ 2025-03-08
Comentários do Hacker News
  • Fico curioso sobre o que está acontecendo esta semana. Nos últimos dois dias, vi vários avanços interessantes em machine learning

    • Uma equipe de pesquisa do Google descobriu que é possível combinar NNs e CLAs por meio de portas lógicas digitais. Isso permite reduzir muitos problemas não lineares a circuitos digitais simples e eficientes
    • Novas descobertas sobre redes neurais e lógica/inteligência continuam surgindo, e isso faz imaginar o quão perto estamos de entender os princípios da inteligência
  • Isso me fez lembrar de uma citação do famoso matemático da teoria dos números Hendrik Lenstra

    • Há a frase: "para cada problema insolúvel, existe um problema mais simples que também é insolúvel"
  • A abordagem deles de aprendizado por reforço em tempo de teste me parece um pouco suspeita

    • O TTRL funciona pedindo ao modelo de linguagem que gere versões mais simples dos casos de teste. Quando obtém um problema mais simples, ele executa aprendizado por reforço sobre esse problema para tentar melhorar o desempenho do modelo no problema original
    • O problema é que eles usam um integrador numérico para verificar o problema simplificado. Consigo imaginar um cenário em que sejam gerados problemas que quase não são simplificados, e o modelo acabe treinando efetivamente nos próprios casos de teste. Isso é como treinar no conjunto de teste
    • O restante do artigo é bom
  • Demonstra a eficácia do LADDER no tema de integração matemática. Aumenta a precisão do Llama 3.2 3B de 1% para 82%

    • O simples fato de esse método funcionar já é interessante. O fato de funcionar bem com matemática é especialmente interessante
    • Este artigo faz parte do movimento atual de borrar a fronteira entre treinamento e inferência. Parte do método deles consiste em decompor perguntas cuja resposta não é conhecida em perguntas mais simples, e usar um "checker" numérico para executar GRPO. Esse modelo reforçado consegue responder a mais perguntas
    • Acho que humanos também pensam muito assim. Refletimos sobre algo, giramos isso na cabeça, fazemos analogias etc. Adicionar treinamento em tempo de teste é uma forma de pensar mais, em vez de apenas adicionar tokens de contexto a uma inferência fixa
    • Assim como DeepSeek e o1/o3 mostram que é possível aumentar a capacidade com geração e avaliação de tokens em tempo de inferência, parece que também será possível aumentar a capacidade com fine-tuning automatizado em tempo de inferência
    • Espero que, quando essas técnicas se consolidarem, possamos falar e pensar sobre isso de uma nova maneira. Em algum nível, todas fazem parte do mesmo processo fundamental
    • De todo modo, isso é muito legal
  • Frank Herbert sabia disso. Esta é uma implementação da autoinspeção recursiva dos mentats descritos em Duna

  • Treinamento/aprendizado por reforço em tempo de teste é uma abordagem adequada para a IA matemática do futuro. Provavelmente é uma das poucas maneiras de usar uma quantidade enorme de computação em um problema específico. O Alphaproof já fazia isso, mas é bom ver isso ser feito de novo com bons resultados

  • Fugindo um pouco do assunto, o site deles é lindo. Parece que encontrei uma mina de ouro

  • Alguns nomes são bons demais

  • No fim do artigo, eles mencionam duas questões da prova classificatória do MIT Integration Bee 2025. Dizem que o sistema continuou produzindo respostas erradas

    • Eles dizem que essas perguntas estão entre as mais complexas da prova, mas a primeira é apenas
    • calcular ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dx
    • Isso equivale a calcular 1/3 + 1/(34) + 1/(34*5) + ... . Não é matemática tão avançada assim