Galeria de arquiteturas de LLM

(sebastianraschka.com)

50 pontos por GN⁺ 2026-03-16 | 2 comentários | Compartilhar no WhatsApp

Uma galeria online que organiza de forma visual os diagramas estruturais e as especificações principais dos grandes modelos de linguagem (LLM) mais recentes, incluindo os principais modelos divulgados entre 2024 e 2026
Cada modelo é apresentado em formato de tabela, resumindo escala de parâmetros, tipo de decoder, método de attention e principais pontos de projeto
O material foi extraído dos artigos comparativos de Sebastian Raschka, ‘The Big LLM Architecture Comparison’ e ‘A Dream of Spring for Open-Weight LLMs’
O usuário pode clicar no nome do modelo para ir à explicação detalhada correspondente, ou clicar na imagem para ampliar o diagrama em alta resolução (182 megapixels)
Serve como um banco de dados de arquiteturas para referência voltado a pesquisadores e desenvolvedores de LLMs open-weight, permitindo acompanhar em um só lugar a evolução recente das estruturas MoE, Hybrid e Dense

Visão geral

Esta página é uma galeria que reúne diagramas de arquiteturas de LLM e fichas técnicas, organizada a partir da extração apenas dos diagramas dos dois principais artigos comparativos de Raschka
- Fonte original: The Big LLM Architecture Comparison, A Dream of Spring for Open-Weight LLMs
Cada item de modelo é composto por nome do modelo, número de parâmetros, data de divulgação, tipo de decoder, método de attention, principais características de projeto e links para conceitos relacionados
Caso encontre informações incorretas ou links com erro, é possível reportar pelo rastreador de issues no GitHub
Devido à alta demanda, também é oferecida via Zazzle uma versão em pôster (PNG de 56MB) com resolução de 14570×12490

Exemplos de modelos principais

Llama 3 8B

Modelo baseado em decoder Dense com 8 bilhões de parâmetros, usado como stack de referência para comparar as escolhas de normalização e attention do OLMo 2
Usa attention GQA + RoPE e mantém a estrutura Pre-norm
Divulgado em 18 de abril de 2024

OLMo 2 7B

Modelo Dense com 7 bilhões de parâmetros, usando attention MHA + QK-Norm
A estrutura Inside-residual post-norm melhora a estabilidade de treinamento
Divulgado em 25 de novembro de 2024

DeepSeek V3

Modelo Sparse MoE com 671 bilhões de parâmetros no total, dos quais 37 bilhões são ativados
Combina attention MLA com uma estrutura de shared expert
Um dos principais templates que impulsionaram o boom dos grandes modelos MoE abertos

DeepSeek R1

Versão especializada em reasoning baseada no DeepSeek V3, mantendo a mesma arquitetura
Divulgado em 20 de janeiro de 2025, com estrutura Sparse MoE baseada em MLA

Gemma 3 27B

Modelo Dense com 27 bilhões de parâmetros, usando GQA + QK-Norm e attention sliding window/global na proporção 5:1
Destaca-se pela expansão de vocabulário multilíngue e pelo reforço da attention local
Divulgado em 11 de março de 2025

Expansão das arquiteturas MoE e Hybrid

Llama 4 Maverick

Modelo Sparse MoE da Meta, baseado na arquitetura do DeepSeek V3, mas adotando attention GQA tradicional
400 bilhões de parâmetros no total, dos quais 17 bilhões são ativados
Blocos Dense e MoE são intercalados, reduzindo o número de experts e ampliando a escala

Qwen3 235B-A22B

Em uma estrutura Sparse MoE semelhante à do DeepSeek V3, remove o shared expert
235 bilhões de parâmetros no total, dos quais 22 bilhões são ativados, usando GQA + QK-Norm
Divulgado em 28 de abril de 2025

Kimi K2

Modelo Sparse MoE em escala de 1 trilhão de parâmetros, expandindo o DeepSeek V3
Usa attention MLA, com aumento no número de experts e redução no número de heads MLA
Divulgado em 10 de julho de 2025

GLM-4.5 355B

Modelo Sparse MoE orientado a agentes, adotando a estrutura Dense-prefix MoE do DeepSeek
355 bilhões de parâmetros no total, dos quais 32 bilhões são ativados, usando GQA + QK-Norm
Divulgado em 28 de julho de 2025

GPT-OSS 20B / 120B

Série open-weight MoE da OpenAI, usando attention cruzada sliding window/global baseada em GQA
O modelo 20B tem uma estrutura rasa e larga, enquanto o modelo 120B expande o mesmo projeto
Divulgado em 4 de agosto de 2025

Estruturas Hybrid e de próxima geração

Qwen3 Next 80B-A3B

Modelo Sparse Hybrid que usa attention híbrida Gated DeltaNet + Gated Attention
80 bilhões de parâmetros no total, dos quais 3 bilhões são ativados, com suporte a contexto de 262k
Divulgado em 9 de setembro de 2025

Kimi Linear 48B-A3B

Estrutura híbrida que combina Linear Attention + MLA
Aplica NoPE e gating por canal para melhorar a eficiência em contextos longos
Divulgado em 30 de outubro de 2025

Nemotron 3 Nano / Super

Modelo Transformer-State-Space Hybrid da NVIDIA
O Nano (30B) usa Mamba-2 + MoE, e o Super (120B) adiciona LatentMoE + MTP
Divulgados respectivamente em 4 de dezembro de 2025 e 11 de março de 2026

Ling 2.5 1T

Modelo Sparse Hybrid de 1 trilhão de parâmetros, com combinação de Lightning Attention + MLA
63 bilhões de parâmetros ativos, com composição de attention linear/MLA na proporção 7:1
Divulgado em 15 de fevereiro de 2026

Modelos open-weight mais recentes

Qwen3.5 397B

Modelo principal que herda a attention híbrida do Qwen3 Next
397 bilhões de parâmetros no total, dos quais 17 bilhões são ativados, com 512 experts
Divulgado em 16 de fevereiro de 2026

Sarvam 30B / 105B

Modelo Sparse MoE com foco em suporte a línguas indianas
O 30B usa GQA + QK-Norm, enquanto o 105B usa MLA + NoPE + RoPE
Divulgado em 3 de março de 2026

Artigos de referência

The Big LLM Architecture Comparison: explica as diferenças de projeto entre estruturas de decoder Dense, MoE, MLA e Hybrid
A Dream of Spring for Open-Weight LLMs: análise adicional de modelos open-weight como MiniMax, Qwen, Ling e Sarvam, divulgados no início de 2026

2 comentários

orange 2026-03-17

Interessante.

GN⁺ 2026-03-16

Comentários do Hacker News

Achei interessante ver que, após vários anos de experimentos, os modelos de pesos abertos acabaram convergindo para formas parecidas
Houve várias tentativas, como roteamento MoE, modelos state-space e atenção linear, mas agora o padrão se consolidou na estrutura dense decoder-only transformer combinada com RMSNorm, rotary position embedding, SwiGLU e grouped-query attention
Agora, o principal ponto de diferenciação se deslocou para a receita de treinamento e o pipeline de dados
A verdadeira inovação do DeepSeek-R1 não foi a arquitetura, mas o aprendizado por reforço sobre cadeias de raciocínio, e o Llama 3 também manteve praticamente a mesma arquitetura, mas com dados e processo de pós-treinamento totalmente renovados
Isso se parece com a evolução no design de chips, em que processo de fabricação e microarquitetura se tornaram mais importantes do que a ISA
Os textos do Sebastian sempre valem a leitura
Recomendo fortemente o livro dele Build an LLM From Scratch. Foi só com esse livro que finalmente consegui entender direito o mecanismo do Transformer
Ao olhar a LLM Architecture Gallery, as diferenças entre os modelos são interessantes, mas nos últimos 7 anos, desde o GPT-2, quase não houve inovação fundamental
Mesmo os modelos de pesos abertos de hoje, vistos de longe, ainda seguem uma estrutura repetitiva de camadas de attention + feed-forward parecida com a do GPT-2
Os saltos recentes vieram de scaling e novas técnicas de treinamento (RLVR etc.), o que parece ser mais um exemplo da Bitter Lesson
Visualização realmente incrível. Me lembrou a Neural Network Zoo que eu tinha visto antes
Assim como aquele projeto, que permitia ver várias arquiteturas de redes neurais de uma vez, este também mostra muito bem a diversidade das arquiteturas
Excelente trabalho
Fiquei curioso se existe algum critério de ordenação. Seria ainda melhor se fosse possível ver o fluxo da evolução ou a linhagem das inovações em formato de árvore genealógica
Além disso, se a variação do tamanho dos modelos fosse visualizada em escala, daria para sentir de forma mais intuitiva a velocidade do progresso
- Como material sobre a evolução da linha DeepSeek, dá para consultar este texto
Muito legal. Obrigado por compartilhar
Uma versão com zoom pode ser vista aqui
Como estatístico, eu sempre quis uma forma modular de entendimento que ligasse a ideia de “redes neurais aproximam funções” à engenharia prática de modelos de machine learning
Este material dá a sensação de preencher essa lacuna
Fiquei curioso sobre com que ferramenta este diagrama foi feito
Coleção interessante
Quando se comparam padrões de prompt na prática, as diferenças de arquitetura acabam aparecendo de maneiras inesperadas
Por exemplo, uma janela de contexto longa não significa apenas lidar com mais texto, mas também leva a projetar a própria estrutura de entrada de outra forma
Fiquei curioso sobre qual é o modelo mais simples estruturalmente que ainda é competitivo
- A competitividade vem mais de escala, dados e dados de fine-tuning do que da arquitetura
  Nos últimos anos quase não houve inovação arquitetural, e a maioria das mudanças serviu para melhorar a eficiência do treinamento
- Se definirmos “competitivo” de forma mais solta, até uma Markov chain pode ser implementada diretamente
  Os modelos Transformer são o resultado de uma evolução incremental construída sobre o acúmulo de inúmeras pesquisas anteriores
Quando cliquei, achei que seria sobre LLM projetando arranha-céus, barragens ou pontes
Já tinha até preparado a pipoca, então fiquei um pouco decepcionado

Galeria de arquiteturas de LLM

Visão geral

Exemplos de modelos principais

Llama 3 8B

OLMo 2 7B

DeepSeek V3

DeepSeek R1

Gemma 3 27B

Expansão das arquiteturas MoE e Hybrid

Llama 4 Maverick

Qwen3 235B-A22B

Kimi K2

GLM-4.5 355B

GPT-OSS 20B / 120B

Estruturas Hybrid e de próxima geração

Qwen3 Next 80B-A3B

Kimi Linear 48B-A3B

Nemotron 3 Nano / Super

Ling 2.5 1T

Modelos open-weight mais recentes

Qwen3.5 397B

Sarvam 30B / 105B

Artigos de referência

Leituras relacionadas

2 comentários

Comentários do Hacker News