LoPE: adicionar texto aleatório em latim no início melhora o raciocínio de LLMs! (artigo no arXiv)
(dev.to)LoPE: adicionar texto aleatório em latim no início melhora o raciocínio de LLMs (artigo no arXiv)
Resumo principal
LoPE é uma técnica que insere Lorem ipsum dolor sit amet ... antes do prompt durante o treinamento com RL. Ela resolve o problema de "zero-advantage", em que o sinal de aprendizado vira 0 quando todas as amostras falham em problemas difíceis.
Resultados principais:
- Média de +4,62 pontos nos benchmarks de matemática com Qwen3-4B
- Melhora relativa de 22% no AMC 2023
- Foi o único método a superar 50 problemas difíceis nos quais todos os métodos anteriores falharam
Pontos de leitura
É interessante o motivo pelo qual um "texto que parece linguagem, mas não tem significado", baseado em latim, é eficaz, assim como o mecanismo pelo qual ele perturba a trajetória básica de raciocínio do modelo para garantir diversidade de exploração.
Ainda não há comentários.