Como conquistou o 1º lugar no Open LLM Leaderboard da HuggingFace — com duas GPUs gamer, sem alterar os pesos

(dnhkng.github.io)

1 pontos por GN⁺ 2026-03-11 | 1 comentários | Compartilhar no WhatsApp

Um caso que alcançou o 1º lugar no leaderboard sem qualquer treinamento, ao duplicar e recombinar as 7 camadas intermediárias de um enorme LLM de 72B de parâmetros
O experimento foi realizado com duas RTX 4090, alterando apenas a estrutura para executar repetidamente as camadas intermediárias, sem modificar os pesos do modelo
A faixa ideal de camadas foi buscada por meio de dois proxy tasks de pequena escala: raciocínio matemático e raciocínio emocional (EQ)
Como resultado, o modelo RYS-XLarge baseado no Qwen2-72B teve melhora média de +2,61%, com destaque para MuSR +17,72% e MATH +8,16%
Essa abordagem mostra a possibilidade da existência de “circuitos funcionais” dentro dos LLMs e leva ao estudo da “estrutura neuroanatômica” de modelos de grande escala

Open LLM Leaderboard e contexto do experimento

Em meados de 2024, o Open LLM Leaderboard da HuggingFace era um campo de disputa entre modelos com pesos abertos
- Itens de avaliação: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
O autor conduziu o experimento sem treinar um novo modelo nem fazer fine-tuning, usando um método de duplicar parte das camadas intermediárias de um modelo existente
Supõe-se que as camadas duplicadas sejam a parte responsável pelo processo de “pensamento” do modelo

Pista 1 – experimento de conversa em Base64

Foi observado o fenômeno de um LLM entender perguntas codificadas em Base64 e retornar a resposta correta também em Base64
Como o modelo realiza raciocínio mesmo com formatos de entrada diferentes, foi levantada a hipótese de que as camadas iniciais fazem a interpretação da entrada (translation), enquanto as camadas finais fazem a conversão de saída (re-translation)
Com isso, surgiu a possibilidade de que as camadas intermediárias sejam a região onde ocorre o pensamento abstrato

Pista 2 – estrutura incomum do modelo Goliath-120B

O Goliath-120B da HuggingFace tem uma estrutura que intercala dois modelos Llama-2 70B, com feedback da saída das camadas finais para a entrada das camadas iniciais
Foi confirmado que o modelo funciona mesmo com uma estrutura fora da distribuição normal de treinamento
Isso sugere que as representações entre camadas são mutuamente compatíveis e que as representações internas do Transformer são homogêneas (homogenous)

Construção do “brain scanner”

Foi construído um pipeline para testar todas as combinações de intervalos de camadas (i, j) do modelo Qwen2-72B (total de 3.241)
Em cada combinação, o modelo era reconfigurado para passar duas vezes por um determinado intervalo de camadas
Os critérios de avaliação precisavam atender a três condições
- Minimização da saída (garantia de velocidade)
- Possibilidade de pontuação objetiva
- Independência cognitiva (se duas tasks melhoram ao mesmo tempo, considera-se uma melhoria estrutural)

Desenho das proxy tasks

Hard Math Probe: estimar diretamente a resposta correta de problemas aritméticos complexos
EQ-Bench Probe: prever de 0 a 100 a intensidade emocional em situações sociais
Ambas as tasks fornecem saídas curtas e respostas corretas claras, sendo adequadas para medir mudanças estruturais

Função de avaliação matemática e pontuação parcial

Considerando erros numéricos típicos de LLMs, como omissão de dígitos ou transposição, foi desenvolvida uma função de pontuação por correspondência parcial
Respostas curtas eram preenchidas e o erro relativo era calculado para converter a exatidão em uma pontuação contínua
Isso permitiu distinguir quantitativamente diferenças sutis de desempenho

Configuração do modelo RYS-XLarge

A combinação ideal foi (45, 52), repetindo mais uma vez as camadas 45 a 51
Como resultado, houve duplicação de 7 camadas intermediárias, e o total de parâmetros passou de 72B para 78B
Sem alterar os pesos, apenas modificando a estrutura, a implementação foi feita por duplicação de ponteiros, sem uso adicional de VRAM

Desempenho no leaderboard

Item	Pontuação	Melhora em relação à base
Média	44.75	+2.61%
MATH Lvl 5	38.97	+8.16%
MuSR	23.72	+17.72%
BBH	+2.51%
GPQA	+2.58%
IFEval	-2.05%

Houve melhora em 5 itens, alcançando o 1º lugar no leaderboard pela pontuação média
Como os itens do leaderboard não foram usados durante o desenvolvimento, isso foi avaliado como um efeito puro de generalização estrutural

Descoberta de “circuitos funcionais” no Transformer

Repetir uma única camada não teve efeito, mas houve ganho apenas na repetição em blocos contínuos
Isso significa que as camadas intermediárias funcionam não como operações repetitivas independentes, mas como um circuito de operações em múltiplas etapas
Ex.: as camadas 46 a 52 executam raciocínio em etapas, como uma única “receita”
- Repetir o bloco inteiro gera o efeito de executar o raciocínio mais uma vez

Análise de heatmap e “LLM Neuroanatomy”

O heatmap que visualiza o desempenho de cada combinação (i, j) mostrou um padrão semelhante a fMRI
Na task de matemática, houve melhora ao repetir camadas intermediárias; na task de EQ, a melhora apareceu em outras regiões
Isso sugere que existem circuitos funcionais internos ao Transformer específicos por tarefa

Efeitos colaterais de duplicações incorretas

Algumas combinações fizeram o modelo apresentar repetição linguística anormal e saídas delirantes
Isso foi comparado a uma “lesão cerebral artificial”, como resultado de expandir demais certos circuitos
Ex.: dano ao circuito de adequação social levando a padrões de conversa anormais

Pesquisas posteriores e modelos derivados

Com base no RYS-XLarge, vários pesquisadores realizaram fine-tuning e treinamento ORPO adicionais
No início de 2026, os 4 principais modelos do leaderboard eram todos modelos 78B baseados na estrutura RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys etc.

Expansão estrutural e significado

A duplicação de camadas é independente do fine-tuning e pode ser combinada com ele
É um método para mudar não o que o modelo “sabe”, mas como ele pensa
Quanto maior o modelo, mais as áreas funcionais se diferenciam, tornando eficaz a duplicação em nível de circuito
Em modelos menores, as funções de codificação, raciocínio e decodificação estão entrelaçadas, então o mesmo efeito é limitado

Planos futuros

A mesma técnica está sendo aplicada a modelos recentes como Qwen, MiniMax e GLM
Foi confirmado que cada modelo possui uma “estrutura neuroanatômica” própria
Há planos de divulgar o código e lançar mais modelos da série RYS
O autor descreve isso como: “agora estamos dissecando cérebros artificiais em vez de cérebros de ratos”

Conclusão

Um experimento que melhorou o desempenho de LLMs apenas com duplicação de camadas, sem alterar os pesos
Demonstra empiricamente a existência de circuitos funcionais e diferenciação estrutural dentro do Transformer
Isso aponta uma nova direção para a interpretabilidade mecanicista (mechanistic interpretability) e a expansão eficiente de arquiteturas

1 comentários

GN⁺ 2026-03-11

Comentários do Hacker News

É surpreendente ver uma desproporção tão grande entre pontos e número de comentários
O texto estava realmente muito rico, e foi impressionante como explicou conteúdo técnico de um jeito que até leigos conseguem entender
Em especial, acho que o ponto central é: “o simples fato de o Goliath ter funcionado já é surpreendente”. Fico curioso por que mais pesquisadores não deram atenção a isso
Também foi interessante saber como o autor saiu de pesquisar cérebros na biotecnologia para acabar mexendo com IA num porão cheio de GPU(?)
- Também pretendo publicar no blog antigos projetos de optogenetics e CRISPR/Cas9
  1. Outros trabalhos (como o Solar10.7B) tentaram algo parecido, mas verificaram experimentalmente que duplicar toda a pilha de transformers não é uma boa ideia. É como duplicar “órgãos”, então a eficiência cai
  2. Eu gostava da pesquisa em biologia, mas revisão por pares e pedidos de verba não combinavam comigo. Então comecei um blog como pesquisador independente. Espero que alguém o cite algum dia
- A analogia de colocar um cérebro de gato na cabeça de um cachorro foi divertida. Na verdade, não acho isso tão surpreendente
  Assim como os kernels das primeiras camadas de CNN convergem para filtros de Gabor, vejo as camadas internas de LLMs convergindo para otimizações matemáticas universais como eficiência energética, compressão de informação e otimização de entropia
Gostei muito de como o processo de descoberta foi mostrado em detalhes. O processo é mais interessante do que o resultado
Em especial, foi marcante a parte em que o desempenho foi aumentado ao sobrepor raciocínio abstrato, além da visualização da distribuição de probabilidade com heatmaps
Os artigos relacionados também estão começando a alcançar isso
- SOLAR / DUS (Kim et al., 2023): duplicou camadas de transformer para criar um modelo 10.7B, e ele teve desempenho melhor que um modelo 30B
- The Curse of Depth (2025): explica que a arquitetura Pre-LN faz camadas profundas convergirem para uma identity function, de modo que as camadas intermediárias fazem o cálculo real
- Scaling up Test-Time Compute with Latent Reasoning (Geiping et al., NeurIPS 2025): propõe uma abordagem para expandir a profundidade de raciocínio reutilizando repetidamente um único bloco recorrente
- Obrigado pelo elogio!
  Mas acho que modelos como SOLAR vão acabar batendo num limite. Pelos heatmaps, a pilha de transformers começa com pesos aleatórios e, durante o treinamento, vai se transformando gradualmente numa estrutura especializada como “órgãos”
  Órgãos como “token-to-thought” e “thought-to-token” deveriam existir apenas uma vez. No fim, acho que uma estrutura especializada sempre vai vencer
Concordo com a fala de que “é surpreendente o Goliath ter funcionado”
Já houve experimentos de combinar vários modelos antes, mas na maioria eram mais do nível de experimentos de comunidade no Reddit ou Discord. Pesquisadores acadêmicos ou corporativos não deram muita atenção
Ainda assim, fico curioso se misturar camadas de modelos totalmente diferentes, como Llama e Qwen, também poderia funcionar
Também acho interessante por que LLMs cometem erros estranhos em aritmética, como omitir o último dígito ou trocar a ordem. Gostaria de testar se forçar parsing gramatical melhoraria isso
- Misturar modelos diferentes parece difícil por causa de tamanho de embedding ou diferenças de vocabulário. Mesmo com a mesma arquitetura, representações internas podem diferir se os dados de treinamento forem diferentes. Ainda assim, seria divertido testar
- Esse tipo de tema é uma área muito boa para pesquisadores amadores explorarem. Empresas estão focadas em fazer fine-tune de modelos existentes
- Números com muitos dígitos são complexos porque há muitas combinações possíveis de tokens. O código do blog ajuda a extrair métricas úteis de respostas parcialmente corretas
É fascinante pensar que pode existir uma língua franca cognitiva escondida dentro dos LLMs
Talvez isso permita criar bancos de conhecimento plugáveis.
Se desse para ter modelos enxutos nos quais só o conhecimento necessário é encaixado, seria possível manter conhecimento atualizado sem retreinar tudo
- A expressão “plugar um banco de conhecimento” é divertida — LLM: “...agora eu sei kung fu”
- Os LLMs do futuro talvez tenham uma estrutura em que camadas padronizadas de codificação/decodificação sejam conectadas a uma camada lógica
- Uma arquitetura assim também poderia reduzir alucinação (hallucination)
- Na verdade, fico pensando se isso não é bem parecido com o que o LoRA já faz
O que o autor chamou de latent space reasoning foi realmente impressionante
É surpreendente que só duplicar camadas já faça o aprendizado retropropagar.
Também fico curioso sobre como o desempenho mudaria se as camadas duplicadas fossem colocadas em loop. Comparando com modelos MoE, talvez desse para verificar se cada camada funciona como um especialista independente
- Testei duplicar camadas individuais, mas não houve grande efeito. Na verdade, o feedback de saída→entrada em geral é prejudicial
  Mas foi interessante experimentar duplicações múltiplas de camadas em vários trechos e prever a fusão com um metamodelo baseado em XGBoost. Também funciona bem com MoE
  Só que minha esposa não gosta muito dessa perda de tempo(?)
- LoopLM parece tratar de uma ideia parecida
O conceito de “cirurgia cerebral” em LLMs é fascinante. Quando o llama.cpp começou a oferecer suporte a modelos de visão, tentei zerar parte dos embeddings gerados no projector e pedir ao LLM que descrevesse a imagem
Aí ele produziu resultados surpreendentes, como inventar pessoas ou fundos que na verdade não existiam.
Um dia eu gostaria de experimentar de forma sistemática a correlação entre dimensões vetoriais e significado
- Estamos vivendo uma ótima época para ser hacker
Eu também tinha uma intuição parecida sobre aproveitar camadas intermediárias.
Organizei minhas ideias depois de ver este vídeo no YouTube, e cheguei à conclusão de que, quanto mais as camadas entram em loop, menos necessário é que a ordem delas permaneça fixa
Se, durante a repetição, certas camadas desnecessárias puderem ser puladas e só as necessárias forem repetidas, talvez isso acabe levando a um modelo MOE de camada única.
Também parece possível algo como um botão de intensidade de raciocínio para controlar “o quanto pensar profundamente”
- É uma ideia interessante. Mas, se a ordem das camadas for totalmente aleatória, pode surgir um problema de explosão combinatória
  Ainda assim, seria interessante testar mudanças de desempenho ao aleatorizar a ordem de chamada dos blocos transformer
Ao ler o texto, senti afinidade com a estrutura geométrica do conhecimento.
Parece que o modo de pensar de um generalista que transita por várias áreas reflete esse tipo de estrutura neural.
Isso tornou meu dia melhor
- Obrigado
É interessante que parece haver algo como uns 7 blocos de camada que funcionam, e acima ou abaixo disso não funciona
Isso sugere a existência de unidades funcionais (“órgãos”) dentro do transformer que ainda não entendemos
Fico curioso se a mesma “mágica das 7 camadas” aparece em outras arquiteturas além de Qwen, como Llama ou Mistral
Essa ideia me faz pensar em duas perguntas
1. Será que o modelo deveria ser treinado desde o início com essa estrutura em loop?
2. Faz sentido usar um número fixo de camadas?
  Se o modelo é tão tolerante a transformações nas camadas internas, não é necessário passar todos os tokens por todas as camadas
  Se fizermos um modelo que ajuste o número de repetições conforme a dificuldade do problema, ele poderia resolver problemas fáceis rapidamente e raciocinar mais profundamente nos difíceis
  Durante o treinamento, também daria para fazê-lo prever a própria confiança (confidence) e decidir se precisa de computação adicional

Como conquistou o 1º lugar no Open LLM Leaderboard da HuggingFace — com duas GPUs gamer, sem alterar os pesos

Open LLM Leaderboard e contexto do experimento

Pista 1 – experimento de conversa em Base64

Pista 2 – estrutura incomum do modelo Goliath-120B

Construção do “brain scanner”

Desenho das proxy tasks

Função de avaliação matemática e pontuação parcial

Configuração do modelo RYS-XLarge

Desempenho no leaderboard

Descoberta de “circuitos funcionais” no Transformer

Análise de heatmap e “LLM Neuroanatomy”

Efeitos colaterais de duplicações incorretas

Pesquisas posteriores e modelos derivados

Expansão estrutural e significado

Planos futuros

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News