1 pontos por taekim34 2 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

LoPE: adicionar texto aleatório em latim no início melhora o raciocínio de LLMs (artigo no arXiv)

Resumo principal

LoPE é uma técnica que insere Lorem ipsum dolor sit amet ... antes do prompt durante o treinamento com RL. Ela resolve o problema de "zero-advantage", em que o sinal de aprendizado vira 0 quando todas as amostras falham em problemas difíceis.

Resultados principais:

  • Média de +4,62 pontos nos benchmarks de matemática com Qwen3-4B
  • Melhora relativa de 22% no AMC 2023
  • Foi o único método a superar 50 problemas difíceis nos quais todos os métodos anteriores falharam

Pontos de leitura

É interessante o motivo pelo qual um "texto que parece linguagem, mas não tem significado", baseado em latim, é eficaz, assim como o mecanismo pelo qual ele perturba a trajetória básica de raciocínio do modelo para garantir diversidade de exploração.

Ainda não há comentários.

Ainda não há comentários.