- Um caso que alcançou o 1º lugar no leaderboard sem qualquer treinamento, ao duplicar e recombinar as 7 camadas intermediárias de um enorme LLM de 72B de parâmetros
- O experimento foi realizado com duas RTX 4090, alterando apenas a estrutura para executar repetidamente as camadas intermediárias, sem modificar os pesos do modelo
- A faixa ideal de camadas foi buscada por meio de dois proxy tasks de pequena escala: raciocínio matemático e raciocínio emocional (EQ)
- Como resultado, o modelo RYS-XLarge baseado no Qwen2-72B teve melhora média de +2,61%, com destaque para MuSR +17,72% e MATH +8,16%
- Essa abordagem mostra a possibilidade da existência de “circuitos funcionais” dentro dos LLMs e leva ao estudo da “estrutura neuroanatômica” de modelos de grande escala
Open LLM Leaderboard e contexto do experimento
- Em meados de 2024, o Open LLM Leaderboard da HuggingFace era um campo de disputa entre modelos com pesos abertos
- Itens de avaliação: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- O autor conduziu o experimento sem treinar um novo modelo nem fazer fine-tuning, usando um método de duplicar parte das camadas intermediárias de um modelo existente
- Supõe-se que as camadas duplicadas sejam a parte responsável pelo processo de “pensamento” do modelo
Pista 1 – experimento de conversa em Base64
- Foi observado o fenômeno de um LLM entender perguntas codificadas em Base64 e retornar a resposta correta também em Base64
- Como o modelo realiza raciocínio mesmo com formatos de entrada diferentes, foi levantada a hipótese de que as camadas iniciais fazem a interpretação da entrada (translation), enquanto as camadas finais fazem a conversão de saída (re-translation)
- Com isso, surgiu a possibilidade de que as camadas intermediárias sejam a região onde ocorre o pensamento abstrato
Pista 2 – estrutura incomum do modelo Goliath-120B
- O Goliath-120B da HuggingFace tem uma estrutura que intercala dois modelos Llama-2 70B, com feedback da saída das camadas finais para a entrada das camadas iniciais
- Foi confirmado que o modelo funciona mesmo com uma estrutura fora da distribuição normal de treinamento
- Isso sugere que as representações entre camadas são mutuamente compatíveis e que as representações internas do Transformer são homogêneas (homogenous)
Construção do “brain scanner”
- Foi construído um pipeline para testar todas as combinações de intervalos de camadas (i, j) do modelo Qwen2-72B (total de 3.241)
- Em cada combinação, o modelo era reconfigurado para passar duas vezes por um determinado intervalo de camadas
- Os critérios de avaliação precisavam atender a três condições
- Minimização da saída (garantia de velocidade)
- Possibilidade de pontuação objetiva
- Independência cognitiva (se duas tasks melhoram ao mesmo tempo, considera-se uma melhoria estrutural)
Desenho das proxy tasks
- Hard Math Probe: estimar diretamente a resposta correta de problemas aritméticos complexos
- EQ-Bench Probe: prever de 0 a 100 a intensidade emocional em situações sociais
- Ambas as tasks fornecem saídas curtas e respostas corretas claras, sendo adequadas para medir mudanças estruturais
Função de avaliação matemática e pontuação parcial
- Considerando erros numéricos típicos de LLMs, como omissão de dígitos ou transposição, foi desenvolvida uma função de pontuação por correspondência parcial
- Respostas curtas eram preenchidas e o erro relativo era calculado para converter a exatidão em uma pontuação contínua
- Isso permitiu distinguir quantitativamente diferenças sutis de desempenho
Configuração do modelo RYS-XLarge
- A combinação ideal foi (45, 52), repetindo mais uma vez as camadas 45 a 51
- Como resultado, houve duplicação de 7 camadas intermediárias, e o total de parâmetros passou de 72B para 78B
- Sem alterar os pesos, apenas modificando a estrutura, a implementação foi feita por duplicação de ponteiros, sem uso adicional de VRAM
Desempenho no leaderboard
| Item |
Pontuação |
Melhora em relação à base |
| Média |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- Houve melhora em 5 itens, alcançando o 1º lugar no leaderboard pela pontuação média
- Como os itens do leaderboard não foram usados durante o desenvolvimento, isso foi avaliado como um efeito puro de generalização estrutural
Descoberta de “circuitos funcionais” no Transformer
- Repetir uma única camada não teve efeito, mas houve ganho apenas na repetição em blocos contínuos
- Isso significa que as camadas intermediárias funcionam não como operações repetitivas independentes, mas como um circuito de operações em múltiplas etapas
- Ex.: as camadas 46 a 52 executam raciocínio em etapas, como uma única “receita”
- Repetir o bloco inteiro gera o efeito de executar o raciocínio mais uma vez
Análise de heatmap e “LLM Neuroanatomy”
- O heatmap que visualiza o desempenho de cada combinação (i, j) mostrou um padrão semelhante a fMRI
- Na task de matemática, houve melhora ao repetir camadas intermediárias; na task de EQ, a melhora apareceu em outras regiões
- Isso sugere que existem circuitos funcionais internos ao Transformer específicos por tarefa
Efeitos colaterais de duplicações incorretas
- Algumas combinações fizeram o modelo apresentar repetição linguística anormal e saídas delirantes
- Isso foi comparado a uma “lesão cerebral artificial”, como resultado de expandir demais certos circuitos
- Ex.: dano ao circuito de adequação social levando a padrões de conversa anormais
Pesquisas posteriores e modelos derivados
- Com base no RYS-XLarge, vários pesquisadores realizaram fine-tuning e treinamento ORPO adicionais
- No início de 2026, os 4 principais modelos do leaderboard eram todos modelos 78B baseados na estrutura RYS
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys etc.
Expansão estrutural e significado
- A duplicação de camadas é independente do fine-tuning e pode ser combinada com ele
- É um método para mudar não o que o modelo “sabe”, mas como ele pensa
- Quanto maior o modelo, mais as áreas funcionais se diferenciam, tornando eficaz a duplicação em nível de circuito
- Em modelos menores, as funções de codificação, raciocínio e decodificação estão entrelaçadas, então o mesmo efeito é limitado
Planos futuros
- A mesma técnica está sendo aplicada a modelos recentes como Qwen, MiniMax e GLM
- Foi confirmado que cada modelo possui uma “estrutura neuroanatômica” própria
- Há planos de divulgar o código e lançar mais modelos da série RYS
- O autor descreve isso como: “agora estamos dissecando cérebros artificiais em vez de cérebros de ratos”
Conclusão
- Um experimento que melhorou o desempenho de LLMs apenas com duplicação de camadas, sem alterar os pesos
- Demonstra empiricamente a existência de circuitos funcionais e diferenciação estrutural dentro do Transformer
- Isso aponta uma nova direção para a interpretabilidade mecanicista (mechanistic interpretability) e a expansão eficiente de arquiteturas
1 comentários
Comentários do Hacker News
É surpreendente ver uma desproporção tão grande entre pontos e número de comentários
O texto estava realmente muito rico, e foi impressionante como explicou conteúdo técnico de um jeito que até leigos conseguem entender
Em especial, acho que o ponto central é: “o simples fato de o Goliath ter funcionado já é surpreendente”. Fico curioso por que mais pesquisadores não deram atenção a isso
Também foi interessante saber como o autor saiu de pesquisar cérebros na biotecnologia para acabar mexendo com IA num porão cheio de GPU(?)
Assim como os kernels das primeiras camadas de CNN convergem para filtros de Gabor, vejo as camadas internas de LLMs convergindo para otimizações matemáticas universais como eficiência energética, compressão de informação e otimização de entropia
Gostei muito de como o processo de descoberta foi mostrado em detalhes. O processo é mais interessante do que o resultado
Em especial, foi marcante a parte em que o desempenho foi aumentado ao sobrepor raciocínio abstrato, além da visualização da distribuição de probabilidade com heatmaps
Os artigos relacionados também estão começando a alcançar isso
Mas acho que modelos como SOLAR vão acabar batendo num limite. Pelos heatmaps, a pilha de transformers começa com pesos aleatórios e, durante o treinamento, vai se transformando gradualmente numa estrutura especializada como “órgãos”
Órgãos como “token-to-thought” e “thought-to-token” deveriam existir apenas uma vez. No fim, acho que uma estrutura especializada sempre vai vencer
Concordo com a fala de que “é surpreendente o Goliath ter funcionado”
Já houve experimentos de combinar vários modelos antes, mas na maioria eram mais do nível de experimentos de comunidade no Reddit ou Discord. Pesquisadores acadêmicos ou corporativos não deram muita atenção
Ainda assim, fico curioso se misturar camadas de modelos totalmente diferentes, como Llama e Qwen, também poderia funcionar
Também acho interessante por que LLMs cometem erros estranhos em aritmética, como omitir o último dígito ou trocar a ordem. Gostaria de testar se forçar parsing gramatical melhoraria isso
É fascinante pensar que pode existir uma língua franca cognitiva escondida dentro dos LLMs
Talvez isso permita criar bancos de conhecimento plugáveis.
Se desse para ter modelos enxutos nos quais só o conhecimento necessário é encaixado, seria possível manter conhecimento atualizado sem retreinar tudo
O que o autor chamou de latent space reasoning foi realmente impressionante
É surpreendente que só duplicar camadas já faça o aprendizado retropropagar.
Também fico curioso sobre como o desempenho mudaria se as camadas duplicadas fossem colocadas em loop. Comparando com modelos MoE, talvez desse para verificar se cada camada funciona como um especialista independente
Mas foi interessante experimentar duplicações múltiplas de camadas em vários trechos e prever a fusão com um metamodelo baseado em XGBoost. Também funciona bem com MoE
Só que minha esposa não gosta muito dessa perda de tempo(?)
O conceito de “cirurgia cerebral” em LLMs é fascinante. Quando o llama.cpp começou a oferecer suporte a modelos de visão, tentei zerar parte dos embeddings gerados no projector e pedir ao LLM que descrevesse a imagem
Aí ele produziu resultados surpreendentes, como inventar pessoas ou fundos que na verdade não existiam.
Um dia eu gostaria de experimentar de forma sistemática a correlação entre dimensões vetoriais e significado
Eu também tinha uma intuição parecida sobre aproveitar camadas intermediárias.
Organizei minhas ideias depois de ver este vídeo no YouTube, e cheguei à conclusão de que, quanto mais as camadas entram em loop, menos necessário é que a ordem delas permaneça fixa
Se, durante a repetição, certas camadas desnecessárias puderem ser puladas e só as necessárias forem repetidas, talvez isso acabe levando a um modelo MOE de camada única.
Também parece possível algo como um botão de intensidade de raciocínio para controlar “o quanto pensar profundamente”
Ainda assim, seria interessante testar mudanças de desempenho ao aleatorizar a ordem de chamada dos blocos transformer
Ao ler o texto, senti afinidade com a estrutura geométrica do conhecimento.
Parece que o modo de pensar de um generalista que transita por várias áreas reflete esse tipo de estrutura neural.
Isso tornou meu dia melhor
É interessante que parece haver algo como uns 7 blocos de camada que funcionam, e acima ou abaixo disso não funciona
Isso sugere a existência de unidades funcionais (“órgãos”) dentro do transformer que ainda não entendemos
Fico curioso se a mesma “mágica das 7 camadas” aparece em outras arquiteturas além de Qwen, como Llama ou Mistral
Essa ideia me faz pensar em duas perguntas
Se o modelo é tão tolerante a transformações nas camadas internas, não é necessário passar todos os tokens por todas as camadas
Se fizermos um modelo que ajuste o número de repetições conforme a dificuldade do problema, ele poderia resolver problemas fáceis rapidamente e raciocinar mais profundamente nos difíceis
Durante o treinamento, também daria para fazê-lo prever a própria confiança (confidence) e decidir se precisa de computação adicional