Qwen2-72B assume o 1º lugar no leaderboard ao duplicar 7 camadas intermediárias, sem mexer em um único peso
(dnhkng.github.io)O desenvolvedor David Noel Ng levou o modelo Qwen2-72B ao 1º lugar no leaderboard Open LLM da HuggingFace em 2024 com um método extremamente simples: fazer o modelo passar mais uma vez por apenas um bloco de 7 camadas intermediárias, sem pesos novos e sem qualquer fine-tuning.
Pontos principais
-
No Qwen2-72B (80 camadas no total), o modelo foi modificado para passar mais uma vez por um bloco intermediário específico (camadas 45 a 51, 7 camadas)
→ os parâmetros aumentam de 72B para cerca de 78B, mas o número de novos pesos adicionados é 0 -
Resultados de benchmark
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Houve melhora em 5 dos 6 principais benchmarks → alcançou o 1º lugar no leaderboard pela pontuação média
Por que funcionou?
- A hipótese é que existam 'circuitos' especializados por função dentro dos modelos transformer (LLM Neuroanatomy)
- Camadas iniciais: codificação da entrada
- Camadas intermediárias: parte em que o raciocínio/pensamento de fato acontece (com circuitos específicos para matemática, compreensão de emoções etc.)
- Camadas finais: decodificação da saída
→ ao rodar mais uma vez o circuito de raciocínio do meio, essa função é reforçada
Como o experimento foi feito
Foram testadas exaustivamente 3.241 combinações de blocos de camadas usando 2 RTX 4090 → análise por heatmap
→ foi encontrado um padrão em que o desempenho sobe fortemente ao repetir apenas um bloco específico (45~52)
Insights adicionais
- Repetir uma única camada → queda de desempenho
- Repetir um bloco com várias camadas → reforço de funções específicas
- Depois, modelos baseados nessa ideia (RYS-XLarge → calme-3.2 etc.) também chegaram ao topo do leaderboard no início de 2026
Conclusão
Os LLMs não são apenas uma pilha de camadas; eles têm circuitos funcionalmente especializados, como um cérebro.
A descoberta é que, apenas encontrando esses circuitos e fazendo o modelo passar por eles novamente, já é possível elevar bastante o desempenho sem tocar nos pesos.
1 comentários
> Quanto menor o modelo, mais complexo ele parece ser. As funções de codificação, raciocínio e decodificação estão entrelaçadas de forma mais complexa e espalhadas por toda a extensão do modelo. Não encontrei nenhuma área de sobreposição funcional que se generalize entre várias tarefas, mas ficou claro que reforçar uma única 'capacidade' pode enfraquecer outra. Porém, à medida que o modelo cresce, a estrutura funcional se torna mais separada. Modelos grandes têm mais 'espaço' para desenvolver circuitos generalizados de 'pensamento', e esse pode ser o motivo de o meu método ter sido muito eficaz no modelo 72B. Abaixo de um certo limiar de parâmetros, o 'córtex de raciocínio' não se diferencia completamente do restante do cérebro.
Se continuar assim, a diferença de desempenho entre modelos pequenos e grandes pode acabar ficando ainda mais extrema.