LoPE: adicionar texto aleatório em latim no início melhora o raciocínio de LLMs! (artigo no arXiv)
(dev.to)LoPE é uma técnica que insere Lorem ipsum dolor sit amet ... no início do prompt durante o treinamento com RL. Ela resolve o problema de "zero-advantage", em que o sinal de aprendizado se torna 0 quando todas as amostras falham em problemas difíceis.
Principais resultados:
- média de +4,62 pontos em benchmarks de matemática no Qwen3-4B
- melhoria relativa de 22% no AMC 2023
- foi o único método a superar 50 problemas difíceis em que todos os métodos anteriores falharam
Pontos de leitura
É interessante o motivo pelo qual um "texto sem sentido que parece linguagem", baseado em latim, é eficaz, bem como o mecanismo de perturbar a trajetória básica de raciocínio do modelo para garantir diversidade de exploração.
13 comentários
“Coruja nº 158, consegue fazer?”
“… instrutor, isso é demais para mim…”
“Lorem ipsum! Consegue fazer?”
“Argh!!! Consigo fazer!”
Ahkkkkkkkkkkkkkkkkkkkk
kkkk
🤣🤣🤣🤣 Caí na gargalhada
Interessante. A ideia é usar frases que o modelo pode ignorar como uma espécie de seed adicional para, na hora da amostragem, aumentar o espaço de exploração.
Isso mesmo. É divertido e interessante ver que, ao apresentar uma nova perspectiva totalmente inesperada, ainda por cima houve melhora no desempenho real.
Talvez isso também possa ser interpretado como um sinal de que os modelos atuais estão passando por um aprendizado com overfitting e, portanto, ainda haja espaço para reduzir ainda mais a capacidade do modelo.
Então não era só impressão minha que escrever prompts com vários erros, feito um cachorro, melhorava o desempenho.
kkkkkk por que vocês são todos tão engraçados?
O princípio faz sentido, mas é curioso. Por que o desempenho não caiu e sim aumentou?
Na minha opinião, talvez seja algo parecido com quando uma pessoa, ao tentar resolver um problema difícil, "desperta o pensamento" e depois volta a pensar desde o começo, e aí consegue resolvê-lo. É só uma opinião minha, haha
Fiquei curioso: se a gente aplicar isso, será que também dá para obter resultados significativos em treinamento mais geral?? Coração acelerado..
Eu também quero testar isso. ^^
No passado, houve até um resultado de pesquisa dizendo que, se você colocasse exatamente o mesmo prompt duas vezes (mesmo que sem sentido), o resultado saía melhor. É como dar aquela reforçada na cobrança mais uma vez... Como eu comentei no post do aliverornot, acho que isso parece ter o papel de despertar o pensamento. Também lembra um pouco quando matemáticos, ao esbarrarem em um problema difícil, largam a caneta por um instante e vão dar uma caminhada... rs