- As arquiteturas de LLM dos últimos 7 anos evoluíram de GPT-2 (2019) até DeepSeek-V3 e Llama 4 (2024-2025) sem grandes mudanças estruturais, mantendo uma similaridade surpreendente
- Modelos recentes como DeepSeek V3/R1 e Llama 4 adotam novas formas de otimização, como Mixture-of-Experts (MoE), MLA e Sliding Window Attention, melhorando a eficiência de memória e o desempenho de inferência
- Alguns modelos open source, como OLMo 2 e Gemma 3, chamam atenção como bons exemplos de design para pesquisa e desenvolvimento por conta da divulgação transparente dos dados e de um posicionamento peculiar das camadas de normalização
- Surgiram modelos de vários tamanhos e estruturas, como Qwen3, SmolLM3 e Kimi 2, ampliando as opções de escolha conforme os prós e contras e os objetivos de uso de arquiteturas MoE e Dense
- A tendência comum dos LLMs recentes é, junto da ampliação de escala e sofisticação, melhorar a eficiência estrutural e se adaptar a diferentes ambientes de hardware
Introdução
- Observando do protótipo do GPT em 2017 até GPT-2 (2019), DeepSeek-V3 e Llama 4 (2024-2025), a arquitetura dos LLMs é parecida em linhas gerais (a estrutura básica de transformer não mudou muito)
- O positional embedding evoluiu do formato absoluto para abordagens como RoPE, e o Multi-Head Attention vem migrando para GQA (grouped-query attention), mais eficiente em memória e computação, mas a estrutura fundamental continua a mesma
- A comparação de desempenho varia conforme dataset e método de treinamento, então é difícil fazer uma comparação estrutural direta
- O texto analisa com foco as mudanças na estrutura arquitetural dos LLMs abertos mais recentes
1. DeepSeek V3/R1
- O DeepSeek R1 (janeiro de 2025) foi construído com base na arquitetura do DeepSeek V3 (dezembro de 2024) e chamou atenção por sua capacidade avançada de raciocínio e pelo grande número de parâmetros (671B)
- Arquitetura principal: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
- MLA: comprime Key/Value em baixa dimensão para reduzir a memória do KV cache, com desempenho melhor que GQA
- MoE: distribui o módulo FeedForward entre vários experts, em uma estrutura esparsa na qual apenas parte dos experts é ativada por token
- DeepSeek V3: 256 experts, 671B de parâmetros no total, usando apenas 9 experts (37B de parâmetros) na inferência
- Um shared expert sempre ativo melhora a eficiência do aprendizado de padrões gerais
- Características: apesar de grande (671B), oferece eficiência de inferência, vantagem de desempenho do MLA sobre GQA e grande capacidade de treinamento com MoE
2. OLMo 2
- Modelo totalmente aberto do Allen Institute for AI
- Seu diferencial está mais na transparência do design e na divulgação do código do que no desempenho
- Pontos da arquitetura: posição do RMSNorm (uso de Post-Norm), QK-Norm
- Enquanto modelos do tipo GPT tradicionais usam Pre-Norm, o OLMo 2 aplica normalização depois do Attention/FeedForward (variante de Post-Norm)
- QK-Norm: RMSNorm adicional no query/key do Attention, melhorando a estabilidade do treinamento
- Mantém a estrutura tradicional de Multi-Head Attention (MHA)
- É parecido com Llama 3 e outros, mas se diferencia pela estratégia de normalização
3. Gemma 3
- Principal LLM aberto do Google, com destaque para um vocabulário grande voltado ao suporte multilíngue e foco no modelo de 27B
- Usa Sliding Window Attention (janela local) para reduzir drasticamente a memória do KV cache
- Gemma 2: Global/Local 1:1, janela de 4k; Gemma 3: proporção 5:1, com janela reduzida para 1024
- Quase não há impacto no desempenho (Perplexity)
- Normalização: aplica RMSNorm tanto em Pre-Norm quanto em Post-Norm ao redor do módulo GQA
- Gemma 3n: voltado a dispositivos pequenos, com Per-Layer Embedding (apenas os parâmetros por camada ficam residentes na GPU) e MatFormer (uso particionado de submodelos) para ficar mais leve
4. Mistral Small 3.1
- Mistral Small 3.1 24B, mais rápido que o Gemma 3 27B e entre os melhores em benchmarks
- Usa tokenizer customizado e reduz KV cache e número de camadas para minimizar a latência de inferência
- Abandona sliding window attention e usa GQA otimizado + FlashAttention, com foco em velocidade de inferência e eficiência de código
5. Llama 4
- Adota de forma ativa a arquitetura MoE, garantindo tanto eficiência de inferência quanto capacidade do modelo, em uma estrutura semelhante à do DeepSeek-V3
- Usa GQA, com diferenças no número de experts do MoE e no hidden size
- DeepSeek-V3: 9 experts (2.048), Llama 4: 2 experts (8.192), com 17B de parâmetros ativos (DeepSeek: 37B)
- Traz um design clássico de MoE com blocos MoE e blocos Dense inseridos de forma alternada
- Confirma a popularização do MoE nos LLMs recentes
6. Qwen3
- Oferece versões Dense de vários tamanhos (0.6B~32B) e versões MoE (30B-A3B, 235B-A22B)
- O modelo pequeno (0.6B) se destaca pela eficiência de treinamento e inferência e pelo throughput de tokens. Garante excelente desempenho entre LLMs ultraleves, além de ótima eficiência de memória e praticidade de treinamento
- Dense: mais camadas, menos memória, mas velocidade menor (em comparação com Llama 3 1B)
- MoE: o Qwen3 235B-A22B tem 22B de parâmetros ativos e não usa shared expert (ao contrário do Qwen2.5-MoE anterior, que incluía shared expert), aumentando a eficiência
- Qwen3 235B-A22B e DeepSeek-V3 são muito parecidos em sua estrutura geral
- Ao oferecer Dense e MoE, atende a diversos objetivos de uso
7. SmolLM3
- Modelo pequeno na faixa de 3B de parâmetros, competindo com Qwen3 1.7/4B, Llama 3 3B e Gemma 3 4B
- A arquitetura é padrão, mas aplica NoPE (No Positional Embedding)
- Usa apenas causal mask, sem positional encoding como RoPE
- Melhora a generalização para comprimentos maiores (Length Generalization) em sequências longas
- Estrutura experimental, aplicada apenas em algumas camadas
8. Kimi 2
- Grande modelo aberto de 1 trilhão de parâmetros, o maior entre os modelos abertos
- Baseado na estrutura do DeepSeek-V3, com expansão no número de camadas MoE e ajuste no número de heads do MLA
- Usa o otimizador Muon em vez de AdamW no treinamento, melhorando a eficiência de treinamento e o loss decay
- Tem mais experts MoE e menos heads de MLA que o DeepSeek-V3
- Com base na experiência do Kimi 1.5, o Kimi 2 alcançou desempenho de ponta e divulgação de open weights
Conclusão e tendências
- Os LLMs recentes mantêm a estrutura fundamental, mas se caracterizam pela ampliação de escala da arquitetura e pela adoção de MoE e de várias estruturas de eficiência
- No caso dos modelos abertos, a divulgação transparente de dados, design e código aumenta seu valor para pesquisa e uso industrial
- Dense e MoE, MLA·GQA·Sliding Window Attention e diferentes estratégias de normalização mostram que cada modelo tem um foco distinto de otimização
- Este é um momento em que as opções de arquitetura se diversificaram conforme o ambiente de hardware, o objetivo de uso e a eficiência de treinamento e inferência
2 comentários
Parece que o qwen lida bem com o coreano.
Comentários do Hacker News
Link para o resultado do Claude
Mas não sei muito bem se esse resultado é realmente utilizável