16 pontos por taekim34 2026-05-12 | 13 comentários | Compartilhar no WhatsApp

LoPE é uma técnica que insere Lorem ipsum dolor sit amet ... no início do prompt durante o treinamento com RL. Ela resolve o problema de "zero-advantage", em que o sinal de aprendizado se torna 0 quando todas as amostras falham em problemas difíceis.

Principais resultados:

  • média de +4,62 pontos em benchmarks de matemática no Qwen3-4B
  • melhoria relativa de 22% no AMC 2023
  • foi o único método a superar 50 problemas difíceis em que todos os métodos anteriores falharam

Pontos de leitura

É interessante o motivo pelo qual um "texto sem sentido que parece linguagem", baseado em latim, é eficaz, bem como o mecanismo de perturbar a trajetória básica de raciocínio do modelo para garantir diversidade de exploração.

13 comentários

 
gooksangom6394 2026-05-12

“Coruja nº 158, consegue fazer?”
“… instrutor, isso é demais para mim…”
“Lorem ipsum! Consegue fazer?”
“Argh!!! Consigo fazer!”

 
sonic0987 2026-05-12

Ahkkkkkkkkkkkkkkkkkkkk

 
epics 2026-05-12

kkkk

 
taekim34 2026-05-12

🤣🤣🤣🤣 Caí na gargalhada

 
mammal 2026-05-12

Interessante. A ideia é usar frases que o modelo pode ignorar como uma espécie de seed adicional para, na hora da amostragem, aumentar o espaço de exploração.

 
taekim34 2026-05-12

Isso mesmo. É divertido e interessante ver que, ao apresentar uma nova perspectiva totalmente inesperada, ainda por cima houve melhora no desempenho real.

 
ide127 2026-05-21

Talvez isso também possa ser interpretado como um sinal de que os modelos atuais estão passando por um aprendizado com overfitting e, portanto, ainda haja espaço para reduzir ainda mais a capacidade do modelo.

 
happing94 2026-05-12

Então não era só impressão minha que escrever prompts com vários erros, feito um cachorro, melhorava o desempenho.

 
taekim34 2026-05-13

kkkkkk por que vocês são todos tão engraçados?

 
aliveornot 2026-05-12

O princípio faz sentido, mas é curioso. Por que o desempenho não caiu e sim aumentou?

 
taekim34 2026-05-12

Na minha opinião, talvez seja algo parecido com quando uma pessoa, ao tentar resolver um problema difícil, "desperta o pensamento" e depois volta a pensar desde o começo, e aí consegue resolvê-lo. É só uma opinião minha, haha

 
somang04 2026-05-12

Fiquei curioso: se a gente aplicar isso, será que também dá para obter resultados significativos em treinamento mais geral?? Coração acelerado..

 
taekim34 2026-05-12

Eu também quero testar isso. ^^
No passado, houve até um resultado de pesquisa dizendo que, se você colocasse exatamente o mesmo prompt duas vezes (mesmo que sem sentido), o resultado saía melhor. É como dar aquela reforçada na cobrança mais uma vez... Como eu comentei no post do aliverornot, acho que isso parece ter o papel de despertar o pensamento. Também lembra um pouco quando matemáticos, ao esbarrarem em um problema difícil, largam a caneta por um instante e vão dar uma caminhada... rs