Qwen2-72B assume o 1º lugar no leaderboard ao duplicar 7 camadas intermediárias, sem mexer em um único peso

(dnhkng.github.io)

11 pontos por davespark 2026-03-11 | 1 comentários | Compartilhar no WhatsApp

O desenvolvedor David Noel Ng levou o modelo Qwen2-72B ao 1º lugar no leaderboard Open LLM da HuggingFace em 2024 com um método extremamente simples: fazer o modelo passar mais uma vez por apenas um bloco de 7 camadas intermediárias, sem pesos novos e sem qualquer fine-tuning.

Pontos principais

No Qwen2-72B (80 camadas no total), o modelo foi modificado para passar mais uma vez por um bloco intermediário específico (camadas 45 a 51, 7 camadas)
→ os parâmetros aumentam de 72B para cerca de 78B, mas o número de novos pesos adicionados é 0
Resultados de benchmark
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- Houve melhora em 5 dos 6 principais benchmarks → alcançou o 1º lugar no leaderboard pela pontuação média

Por que funcionou?

A hipótese é que existam 'circuitos' especializados por função dentro dos modelos transformer (LLM Neuroanatomy)
Camadas iniciais: codificação da entrada
Camadas intermediárias: parte em que o raciocínio/pensamento de fato acontece (com circuitos específicos para matemática, compreensão de emoções etc.)
Camadas finais: decodificação da saída
→ ao rodar mais uma vez o circuito de raciocínio do meio, essa função é reforçada

Como o experimento foi feito
Foram testadas exaustivamente 3.241 combinações de blocos de camadas usando 2 RTX 4090 → análise por heatmap
→ foi encontrado um padrão em que o desempenho sobe fortemente ao repetir apenas um bloco específico (45~52)

Insights adicionais

Repetir uma única camada → queda de desempenho
Repetir um bloco com várias camadas → reforço de funções específicas
Depois, modelos baseados nessa ideia (RYS-XLarge → calme-3.2 etc.) também chegaram ao topo do leaderboard no início de 2026

Conclusão
Os LLMs não são apenas uma pilha de camadas; eles têm circuitos funcionalmente especializados, como um cérebro.
A descoberta é que, apenas encontrando esses circuitos e fazendo o modelo passar por eles novamente, já é possível elevar bastante o desempenho sem tocar nos pesos.

https://aisparkup.com/posts/9997

1 comentários

sygys10293 2026-03-13

> Quanto menor o modelo, mais complexo ele parece ser. As funções de codificação, raciocínio e decodificação estão entrelaçadas de forma mais complexa e espalhadas por toda a extensão do modelo. Não encontrei nenhuma área de sobreposição funcional que se generalize entre várias tarefas, mas ficou claro que reforçar uma única 'capacidade' pode enfraquecer outra. Porém, à medida que o modelo cresce, a estrutura funcional se torna mais separada. Modelos grandes têm mais 'espaço' para desenvolver circuitos generalizados de 'pensamento', e esse pode ser o motivo de o meu método ter sido muito eficaz no modelo 72B. Abaixo de um certo limiar de parâmetros, o 'córtex de raciocínio' não se diferencia completamente do restante do cérebro.

Se continuar assim, a diferença de desempenho entre modelos pequenos e grandes pode acabar ficando ainda mais extrema.

Qwen2-72B assume o 1º lugar no leaderboard ao duplicar 7 camadas intermediárias, sem mexer em um único peso

Leituras relacionadas

1 comentários