Um artigo publicado pela equipe do Google Research ("Prompt Repetition Improves Non-Reasoning LLMs") encontrou uma técnica muito simples, mas poderosa:
inserir exatamente o mesmo prompt duas vezes faz com que a precisão aumente significativamente na maioria dos LLMs mais recentes (Gemini, GPT-4o, Claude, DeepSeek etc.).
Pontos principais:
- Por causa da estrutura causal (autoregressiva) dos LLMs, eles são vulneráveis à ordem das informações no prompt e ao fato de vê-las apenas uma vez → erram com frequência em tarefas em que a informação importante está mais ao final ou em que é necessário fazer referência a ela.
- Inserir o prompt com duas repetições → na etapa de prefill (análise da entrada), o mesmo conteúdo é processado duas vezes, deixando a representação interna do modelo mais precisa e reduzindo bastante erros de referência e memória.
- Há pouco impacto na etapa de geração (criação dos tokens de saída) → quase não há aumento no tempo de inferência nem no tamanho da saída (com exceções em casos de contexto muito longo, como no Claude).
- Resultado dos experimentos: em 70 combinações de 7 modelos × vários benchmarks, houve melhora em 47 casos, sem nenhuma queda relevante.
- Exemplo extremo: tarefa de “qual é o 25º nome em uma lista de 50 nomes?”
→ precisão base do Gemini 2.0 Flash Lite de 21% → 97% após a repetição (quase perfeito) - Em tarefas de raciocínio complexo, como Chain-of-Thought, o efeito é pequeno (quando o modelo já lida bem com referências).
- Desvantagem: se o prompt já for muito longo, o tempo de prefill pode aumentar, e repetir três vezes ou mais pode bater no limite de tokens.
Conclusão
Um truque de aumento de precisão surpreendentemente simples e com custo quase zero, que pode ficar tão conhecido quanto “Think step by step”.
Chama especialmente a atenção como dica prática que pode ser usada de imediato em referência simples, processamento de listas e perguntas sobre dados estruturados.
Ainda não há comentários.