Comparação das arquiteturas dos grandes LLMs

(magazine.sebastianraschka.com)

26 pontos por GN⁺ 2025-07-21 | 2 comentários | Compartilhar no WhatsApp

As arquiteturas de LLM dos últimos 7 anos evoluíram de GPT-2 (2019) até DeepSeek-V3 e Llama 4 (2024-2025) sem grandes mudanças estruturais, mantendo uma similaridade surpreendente
Modelos recentes como DeepSeek V3/R1 e Llama 4 adotam novas formas de otimização, como Mixture-of-Experts (MoE), MLA e Sliding Window Attention, melhorando a eficiência de memória e o desempenho de inferência
Alguns modelos open source, como OLMo 2 e Gemma 3, chamam atenção como bons exemplos de design para pesquisa e desenvolvimento por conta da divulgação transparente dos dados e de um posicionamento peculiar das camadas de normalização
Surgiram modelos de vários tamanhos e estruturas, como Qwen3, SmolLM3 e Kimi 2, ampliando as opções de escolha conforme os prós e contras e os objetivos de uso de arquiteturas MoE e Dense
A tendência comum dos LLMs recentes é, junto da ampliação de escala e sofisticação, melhorar a eficiência estrutural e se adaptar a diferentes ambientes de hardware

Introdução

Observando do protótipo do GPT em 2017 até GPT-2 (2019), DeepSeek-V3 e Llama 4 (2024-2025), a arquitetura dos LLMs é parecida em linhas gerais (a estrutura básica de transformer não mudou muito)
O positional embedding evoluiu do formato absoluto para abordagens como RoPE, e o Multi-Head Attention vem migrando para GQA (grouped-query attention), mais eficiente em memória e computação, mas a estrutura fundamental continua a mesma
A comparação de desempenho varia conforme dataset e método de treinamento, então é difícil fazer uma comparação estrutural direta
O texto analisa com foco as mudanças na estrutura arquitetural dos LLMs abertos mais recentes

1. DeepSeek V3/R1

O DeepSeek R1 (janeiro de 2025) foi construído com base na arquitetura do DeepSeek V3 (dezembro de 2024) e chamou atenção por sua capacidade avançada de raciocínio e pelo grande número de parâmetros (671B)
Arquitetura principal: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
MLA: comprime Key/Value em baixa dimensão para reduzir a memória do KV cache, com desempenho melhor que GQA
MoE: distribui o módulo FeedForward entre vários experts, em uma estrutura esparsa na qual apenas parte dos experts é ativada por token
- DeepSeek V3: 256 experts, 671B de parâmetros no total, usando apenas 9 experts (37B de parâmetros) na inferência
- Um shared expert sempre ativo melhora a eficiência do aprendizado de padrões gerais
Características: apesar de grande (671B), oferece eficiência de inferência, vantagem de desempenho do MLA sobre GQA e grande capacidade de treinamento com MoE

2. OLMo 2

Modelo totalmente aberto do Allen Institute for AI
Seu diferencial está mais na transparência do design e na divulgação do código do que no desempenho
Pontos da arquitetura: posição do RMSNorm (uso de Post-Norm), QK-Norm
- Enquanto modelos do tipo GPT tradicionais usam Pre-Norm, o OLMo 2 aplica normalização depois do Attention/FeedForward (variante de Post-Norm)
- QK-Norm: RMSNorm adicional no query/key do Attention, melhorando a estabilidade do treinamento
Mantém a estrutura tradicional de Multi-Head Attention (MHA)
É parecido com Llama 3 e outros, mas se diferencia pela estratégia de normalização

3. Gemma 3

Principal LLM aberto do Google, com destaque para um vocabulário grande voltado ao suporte multilíngue e foco no modelo de 27B
Usa Sliding Window Attention (janela local) para reduzir drasticamente a memória do KV cache
- Gemma 2: Global/Local 1:1, janela de 4k; Gemma 3: proporção 5:1, com janela reduzida para 1024
- Quase não há impacto no desempenho (Perplexity)
Normalização: aplica RMSNorm tanto em Pre-Norm quanto em Post-Norm ao redor do módulo GQA
Gemma 3n: voltado a dispositivos pequenos, com Per-Layer Embedding (apenas os parâmetros por camada ficam residentes na GPU) e MatFormer (uso particionado de submodelos) para ficar mais leve

4. Mistral Small 3.1

Mistral Small 3.1 24B, mais rápido que o Gemma 3 27B e entre os melhores em benchmarks
Usa tokenizer customizado e reduz KV cache e número de camadas para minimizar a latência de inferência
Abandona sliding window attention e usa GQA otimizado + FlashAttention, com foco em velocidade de inferência e eficiência de código

5. Llama 4

Adota de forma ativa a arquitetura MoE, garantindo tanto eficiência de inferência quanto capacidade do modelo, em uma estrutura semelhante à do DeepSeek-V3
Usa GQA, com diferenças no número de experts do MoE e no hidden size
- DeepSeek-V3: 9 experts (2.048), Llama 4: 2 experts (8.192), com 17B de parâmetros ativos (DeepSeek: 37B)
Traz um design clássico de MoE com blocos MoE e blocos Dense inseridos de forma alternada
Confirma a popularização do MoE nos LLMs recentes

6. Qwen3

Oferece versões Dense de vários tamanhos (0.6B~32B) e versões MoE (30B-A3B, 235B-A22B)
O modelo pequeno (0.6B) se destaca pela eficiência de treinamento e inferência e pelo throughput de tokens. Garante excelente desempenho entre LLMs ultraleves, além de ótima eficiência de memória e praticidade de treinamento
Dense: mais camadas, menos memória, mas velocidade menor (em comparação com Llama 3 1B)
MoE: o Qwen3 235B-A22B tem 22B de parâmetros ativos e não usa shared expert (ao contrário do Qwen2.5-MoE anterior, que incluía shared expert), aumentando a eficiência
Qwen3 235B-A22B e DeepSeek-V3 são muito parecidos em sua estrutura geral
Ao oferecer Dense e MoE, atende a diversos objetivos de uso

7. SmolLM3

Modelo pequeno na faixa de 3B de parâmetros, competindo com Qwen3 1.7/4B, Llama 3 3B e Gemma 3 4B
A arquitetura é padrão, mas aplica NoPE (No Positional Embedding)
- Usa apenas causal mask, sem positional encoding como RoPE
- Melhora a generalização para comprimentos maiores (Length Generalization) em sequências longas
- Estrutura experimental, aplicada apenas em algumas camadas

8. Kimi 2

Grande modelo aberto de 1 trilhão de parâmetros, o maior entre os modelos abertos
Baseado na estrutura do DeepSeek-V3, com expansão no número de camadas MoE e ajuste no número de heads do MLA
Usa o otimizador Muon em vez de AdamW no treinamento, melhorando a eficiência de treinamento e o loss decay
Tem mais experts MoE e menos heads de MLA que o DeepSeek-V3
Com base na experiência do Kimi 1.5, o Kimi 2 alcançou desempenho de ponta e divulgação de open weights

Conclusão e tendências

Os LLMs recentes mantêm a estrutura fundamental, mas se caracterizam pela ampliação de escala da arquitetura e pela adoção de MoE e de várias estruturas de eficiência
No caso dos modelos abertos, a divulgação transparente de dados, design e código aumenta seu valor para pesquisa e uso industrial
Dense e MoE, MLA·GQA·Sliding Window Attention e diferentes estratégias de normalização mostram que cada modelo tem um foco distinto de otimização
Este é um momento em que as opções de arquitetura se diversificaram conforme o ambiente de hardware, o objetivo de uso e a eficiência de treinamento e inferência

2 comentários

tensun 2025-07-22

Parece que o qwen lida bem com o coreano.

GN⁺ 2025-07-21

Comentários do Hacker News

Este texto trouxe um nível de abstração perfeito e explicações detalhadas para aprender sobre arquiteturas de LLM, então foi muito mais fácil absorver bastante informação do que lendo os artigos originais
Para quem está entre iniciante e especialista, os diagramas deste texto causam uma impressão muito forte, e ver os modelos mais recentes organizados de relance é realmente útil
Como material relacionado, também vale conferir um texto que explica como a DeepSeek melhorou a arquitetura Transformer e algumas seções de um artigo de análise sobre a superinteligência da Meta
Para pessoas como eu, que não conseguiam acompanhar as tendências mais recentes, esse tipo de resumo é realmente um ótimo catch-up
Tomara que no futuro saia uma parte 2 incluindo até rumores sobre modelos frontier de código fechado, como o5, o3 Pro, o4 ou 4.5, Gemini 2.5 Pro, Grok 4 e Claude Opus 4
Obrigado por organizar em detalhe as diferenças entre as várias arquiteturas de LLM; isso tornou tudo fácil de entender e bem educativo
Honestamente, comparado à época do GPT-2 (2019), a velocidade do avanço atual é difícil de acreditar. Hoje em dia já é difícil comparar corretamente o desempenho dos LLMs, e a cada duas semanas um modelo novo atualiza os benchmarks. Fiquei feliz em ver a menção à DeepSeek, porque as inovações de arquitetura introduzidas no V3 melhoraram muito a eficiência computacional, e esse foi o ponto decisivo que eliminou a diferença em relação aos outros modelos da época
Várias arquiteturas novas trouxeram muitas inovações em precisão e velocidade, mas o problema fundamental de garantir a geração de informação correta continua sem solução. Métodos como Retrieval Augmented Generation (RAG) e agentes ajudam a melhorar isso, mas também fico curioso se as arquiteturas do futuro acabarão substituindo essas abordagens
- No fundo, os Transformers são treinados com o objetivo de prever texto, e esse método tem limites para incorporar lógica. Para reduzir ainda mais as alucinações, acho que seria necessário um objetivo de treinamento completamente diferente
- O modelo não consegue distinguir quando pode generalizar em uma situação e quando precisa de mais informação. Por exemplo, não consegue diferenciar facilmente por que certos métodos existem e outras funções parecidas não. Quando eu era criança, certa vez chamei minha mãe de excelente cooker, sem saber que palavras diferentes são atribuídas a máquinas e a pessoas. Sinto que esse tipo de generalização entre palavras parecidas também se aplica aos modelos
- Arquiteturas recentes como DeepSeek-V2 e Llama 3.1 mostram que melhorias de projeto, por si só, já aumentam bastante a factualidade. O pano de fundo disso está especialmente no mecanismo de attention e em objetivos de treinamento especializados em suprimir alucinações
- O RAG (resposta baseada em busca) é estruturalmente simples e fácil de implementar, mas sempre me perguntei por que ele ainda não foi incorporado aos LLMs básicos. O fato de não conseguir ser integrado diretamente ao modelo parece ser uma evidência das limitações fundamentais do RAG e de suas variações. Se fosse um método realmente eficaz, acho que teria sido adotado como um recurso básico da arquitetura, e não como um acréscimo externo
Pedi ao Claude que lesse o texto original e propusesse uma nova arquitetura
Link para o resultado do Claude
Mas não sei muito bem se esse resultado é realmente utilizável

Comparação das arquiteturas dos grandes LLMs

Introdução

1. DeepSeek V3/R1

2. OLMo 2

3. Gemma 3

4. Mistral Small 3.1

5. Llama 4

6. Qwen3

7. SmolLM3

8. Kimi 2

Conclusão e tendências

Leituras relacionadas

2 comentários

Comentários do Hacker News