- Uma galeria online que organiza de forma visual os diagramas estruturais e as especificações principais dos grandes modelos de linguagem (LLM) mais recentes, incluindo os principais modelos divulgados entre 2024 e 2026
- Cada modelo é apresentado em formato de tabela, resumindo escala de parâmetros, tipo de decoder, método de attention e principais pontos de projeto
- O material foi extraído dos artigos comparativos de Sebastian Raschka, ‘The Big LLM Architecture Comparison’ e ‘A Dream of Spring for Open-Weight LLMs’
- O usuário pode clicar no nome do modelo para ir à explicação detalhada correspondente, ou clicar na imagem para ampliar o diagrama em alta resolução (182 megapixels)
- Serve como um banco de dados de arquiteturas para referência voltado a pesquisadores e desenvolvedores de LLMs open-weight, permitindo acompanhar em um só lugar a evolução recente das estruturas MoE, Hybrid e Dense
Visão geral
- Esta página é uma galeria que reúne diagramas de arquiteturas de LLM e fichas técnicas, organizada a partir da extração apenas dos diagramas dos dois principais artigos comparativos de Raschka
- Fonte original: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
- Cada item de modelo é composto por nome do modelo, número de parâmetros, data de divulgação, tipo de decoder, método de attention, principais características de projeto e links para conceitos relacionados
- Caso encontre informações incorretas ou links com erro, é possível reportar pelo rastreador de issues no GitHub
- Devido à alta demanda, também é oferecida via Zazzle uma versão em pôster (PNG de 56MB) com resolução de 14570×12490
Exemplos de modelos principais
Llama 3 8B
- Modelo baseado em decoder Dense com 8 bilhões de parâmetros, usado como stack de referência para comparar as escolhas de normalização e attention do OLMo 2
- Usa attention GQA + RoPE e mantém a estrutura Pre-norm
- Divulgado em 18 de abril de 2024
OLMo 2 7B
- Modelo Dense com 7 bilhões de parâmetros, usando attention MHA + QK-Norm
- A estrutura Inside-residual post-norm melhora a estabilidade de treinamento
- Divulgado em 25 de novembro de 2024
DeepSeek V3
- Modelo Sparse MoE com 671 bilhões de parâmetros no total, dos quais 37 bilhões são ativados
- Combina attention MLA com uma estrutura de shared expert
- Um dos principais templates que impulsionaram o boom dos grandes modelos MoE abertos
DeepSeek R1
- Versão especializada em reasoning baseada no DeepSeek V3, mantendo a mesma arquitetura
- Divulgado em 20 de janeiro de 2025, com estrutura Sparse MoE baseada em MLA
Gemma 3 27B
- Modelo Dense com 27 bilhões de parâmetros, usando GQA + QK-Norm e attention sliding window/global na proporção 5:1
- Destaca-se pela expansão de vocabulário multilíngue e pelo reforço da attention local
- Divulgado em 11 de março de 2025
Expansão das arquiteturas MoE e Hybrid
Llama 4 Maverick
- Modelo Sparse MoE da Meta, baseado na arquitetura do DeepSeek V3, mas adotando attention GQA tradicional
- 400 bilhões de parâmetros no total, dos quais 17 bilhões são ativados
- Blocos Dense e MoE são intercalados, reduzindo o número de experts e ampliando a escala
Qwen3 235B-A22B
- Em uma estrutura Sparse MoE semelhante à do DeepSeek V3, remove o shared expert
- 235 bilhões de parâmetros no total, dos quais 22 bilhões são ativados, usando GQA + QK-Norm
- Divulgado em 28 de abril de 2025
Kimi K2
- Modelo Sparse MoE em escala de 1 trilhão de parâmetros, expandindo o DeepSeek V3
- Usa attention MLA, com aumento no número de experts e redução no número de heads MLA
- Divulgado em 10 de julho de 2025
GLM-4.5 355B
- Modelo Sparse MoE orientado a agentes, adotando a estrutura Dense-prefix MoE do DeepSeek
- 355 bilhões de parâmetros no total, dos quais 32 bilhões são ativados, usando GQA + QK-Norm
- Divulgado em 28 de julho de 2025
GPT-OSS 20B / 120B
- Série open-weight MoE da OpenAI, usando attention cruzada sliding window/global baseada em GQA
- O modelo 20B tem uma estrutura rasa e larga, enquanto o modelo 120B expande o mesmo projeto
- Divulgado em 4 de agosto de 2025
Estruturas Hybrid e de próxima geração
Qwen3 Next 80B-A3B
- Modelo Sparse Hybrid que usa attention híbrida Gated DeltaNet + Gated Attention
- 80 bilhões de parâmetros no total, dos quais 3 bilhões são ativados, com suporte a contexto de 262k
- Divulgado em 9 de setembro de 2025
Kimi Linear 48B-A3B
- Estrutura híbrida que combina Linear Attention + MLA
- Aplica NoPE e gating por canal para melhorar a eficiência em contextos longos
- Divulgado em 30 de outubro de 2025
Nemotron 3 Nano / Super
- Modelo Transformer-State-Space Hybrid da NVIDIA
- O Nano (30B) usa Mamba-2 + MoE, e o Super (120B) adiciona LatentMoE + MTP
- Divulgados respectivamente em 4 de dezembro de 2025 e 11 de março de 2026
Ling 2.5 1T
- Modelo Sparse Hybrid de 1 trilhão de parâmetros, com combinação de Lightning Attention + MLA
- 63 bilhões de parâmetros ativos, com composição de attention linear/MLA na proporção 7:1
- Divulgado em 15 de fevereiro de 2026
Modelos open-weight mais recentes
Qwen3.5 397B
- Modelo principal que herda a attention híbrida do Qwen3 Next
- 397 bilhões de parâmetros no total, dos quais 17 bilhões são ativados, com 512 experts
- Divulgado em 16 de fevereiro de 2026
Sarvam 30B / 105B
- Modelo Sparse MoE com foco em suporte a línguas indianas
- O 30B usa GQA + QK-Norm, enquanto o 105B usa MLA + NoPE + RoPE
- Divulgado em 3 de março de 2026
Artigos de referência
- The Big LLM Architecture Comparison: explica as diferenças de projeto entre estruturas de decoder Dense, MoE, MLA e Hybrid
- A Dream of Spring for Open-Weight LLMs: análise adicional de modelos open-weight como MiniMax, Qwen, Ling e Sarvam, divulgados no início de 2026
2 comentários
Interessante.
Comentários do Hacker News
Achei interessante ver que, após vários anos de experimentos, os modelos de pesos abertos acabaram convergindo para formas parecidas
Houve várias tentativas, como roteamento MoE, modelos state-space e atenção linear, mas agora o padrão se consolidou na estrutura dense decoder-only transformer combinada com RMSNorm, rotary position embedding, SwiGLU e grouped-query attention
Agora, o principal ponto de diferenciação se deslocou para a receita de treinamento e o pipeline de dados
A verdadeira inovação do DeepSeek-R1 não foi a arquitetura, mas o aprendizado por reforço sobre cadeias de raciocínio, e o Llama 3 também manteve praticamente a mesma arquitetura, mas com dados e processo de pós-treinamento totalmente renovados
Isso se parece com a evolução no design de chips, em que processo de fabricação e microarquitetura se tornaram mais importantes do que a ISA
Os textos do Sebastian sempre valem a leitura
Recomendo fortemente o livro dele Build an LLM From Scratch. Foi só com esse livro que finalmente consegui entender direito o mecanismo do Transformer
Ao olhar a LLM Architecture Gallery, as diferenças entre os modelos são interessantes, mas nos últimos 7 anos, desde o GPT-2, quase não houve inovação fundamental
Mesmo os modelos de pesos abertos de hoje, vistos de longe, ainda seguem uma estrutura repetitiva de camadas de attention + feed-forward parecida com a do GPT-2
Os saltos recentes vieram de scaling e novas técnicas de treinamento (RLVR etc.), o que parece ser mais um exemplo da Bitter Lesson
Visualização realmente incrível. Me lembrou a Neural Network Zoo que eu tinha visto antes
Assim como aquele projeto, que permitia ver várias arquiteturas de redes neurais de uma vez, este também mostra muito bem a diversidade das arquiteturas
Excelente trabalho
Fiquei curioso se existe algum critério de ordenação. Seria ainda melhor se fosse possível ver o fluxo da evolução ou a linhagem das inovações em formato de árvore genealógica
Além disso, se a variação do tamanho dos modelos fosse visualizada em escala, daria para sentir de forma mais intuitiva a velocidade do progresso
Muito legal. Obrigado por compartilhar
Uma versão com zoom pode ser vista aqui
Como estatístico, eu sempre quis uma forma modular de entendimento que ligasse a ideia de “redes neurais aproximam funções” à engenharia prática de modelos de machine learning
Este material dá a sensação de preencher essa lacuna
Fiquei curioso sobre com que ferramenta este diagrama foi feito
Coleção interessante
Quando se comparam padrões de prompt na prática, as diferenças de arquitetura acabam aparecendo de maneiras inesperadas
Por exemplo, uma janela de contexto longa não significa apenas lidar com mais texto, mas também leva a projetar a própria estrutura de entrada de outra forma
Fiquei curioso sobre qual é o modelo mais simples estruturalmente que ainda é competitivo
Nos últimos anos quase não houve inovação arquitetural, e a maioria das mudanças serviu para melhorar a eficiência do treinamento
Os modelos Transformer são o resultado de uma evolução incremental construída sobre o acúmulo de inúmeras pesquisas anteriores
Quando cliquei, achei que seria sobre LLM projetando arranha-céus, barragens ou pontes
Já tinha até preparado a pipoca, então fiquei um pouco decepcionado