26 pontos por GN⁺ 2025-07-21 | 2 comentários | Compartilhar no WhatsApp
  • As arquiteturas de LLM dos últimos 7 anos evoluíram de GPT-2 (2019) até DeepSeek-V3 e Llama 4 (2024-2025) sem grandes mudanças estruturais, mantendo uma similaridade surpreendente
  • Modelos recentes como DeepSeek V3/R1 e Llama 4 adotam novas formas de otimização, como Mixture-of-Experts (MoE), MLA e Sliding Window Attention, melhorando a eficiência de memória e o desempenho de inferência
  • Alguns modelos open source, como OLMo 2 e Gemma 3, chamam atenção como bons exemplos de design para pesquisa e desenvolvimento por conta da divulgação transparente dos dados e de um posicionamento peculiar das camadas de normalização
  • Surgiram modelos de vários tamanhos e estruturas, como Qwen3, SmolLM3 e Kimi 2, ampliando as opções de escolha conforme os prós e contras e os objetivos de uso de arquiteturas MoE e Dense
  • A tendência comum dos LLMs recentes é, junto da ampliação de escala e sofisticação, melhorar a eficiência estrutural e se adaptar a diferentes ambientes de hardware

Introdução

  • Observando do protótipo do GPT em 2017 até GPT-2 (2019), DeepSeek-V3 e Llama 4 (2024-2025), a arquitetura dos LLMs é parecida em linhas gerais (a estrutura básica de transformer não mudou muito)
  • O positional embedding evoluiu do formato absoluto para abordagens como RoPE, e o Multi-Head Attention vem migrando para GQA (grouped-query attention), mais eficiente em memória e computação, mas a estrutura fundamental continua a mesma
  • A comparação de desempenho varia conforme dataset e método de treinamento, então é difícil fazer uma comparação estrutural direta
  • O texto analisa com foco as mudanças na estrutura arquitetural dos LLMs abertos mais recentes

1. DeepSeek V3/R1

  • O DeepSeek R1 (janeiro de 2025) foi construído com base na arquitetura do DeepSeek V3 (dezembro de 2024) e chamou atenção por sua capacidade avançada de raciocínio e pelo grande número de parâmetros (671B)
  • Arquitetura principal: Multi-Head Latent Attention (MLA), Mixture-of-Experts (MoE)
  • MLA: comprime Key/Value em baixa dimensão para reduzir a memória do KV cache, com desempenho melhor que GQA
  • MoE: distribui o módulo FeedForward entre vários experts, em uma estrutura esparsa na qual apenas parte dos experts é ativada por token
    • DeepSeek V3: 256 experts, 671B de parâmetros no total, usando apenas 9 experts (37B de parâmetros) na inferência
    • Um shared expert sempre ativo melhora a eficiência do aprendizado de padrões gerais
  • Características: apesar de grande (671B), oferece eficiência de inferência, vantagem de desempenho do MLA sobre GQA e grande capacidade de treinamento com MoE

2. OLMo 2

  • Modelo totalmente aberto do Allen Institute for AI
  • Seu diferencial está mais na transparência do design e na divulgação do código do que no desempenho
  • Pontos da arquitetura: posição do RMSNorm (uso de Post-Norm), QK-Norm
    • Enquanto modelos do tipo GPT tradicionais usam Pre-Norm, o OLMo 2 aplica normalização depois do Attention/FeedForward (variante de Post-Norm)
    • QK-Norm: RMSNorm adicional no query/key do Attention, melhorando a estabilidade do treinamento
  • Mantém a estrutura tradicional de Multi-Head Attention (MHA)
  • É parecido com Llama 3 e outros, mas se diferencia pela estratégia de normalização

3. Gemma 3

  • Principal LLM aberto do Google, com destaque para um vocabulário grande voltado ao suporte multilíngue e foco no modelo de 27B
  • Usa Sliding Window Attention (janela local) para reduzir drasticamente a memória do KV cache
    • Gemma 2: Global/Local 1:1, janela de 4k; Gemma 3: proporção 5:1, com janela reduzida para 1024
    • Quase não há impacto no desempenho (Perplexity)
  • Normalização: aplica RMSNorm tanto em Pre-Norm quanto em Post-Norm ao redor do módulo GQA
  • Gemma 3n: voltado a dispositivos pequenos, com Per-Layer Embedding (apenas os parâmetros por camada ficam residentes na GPU) e MatFormer (uso particionado de submodelos) para ficar mais leve

4. Mistral Small 3.1

  • Mistral Small 3.1 24B, mais rápido que o Gemma 3 27B e entre os melhores em benchmarks
  • Usa tokenizer customizado e reduz KV cache e número de camadas para minimizar a latência de inferência
  • Abandona sliding window attention e usa GQA otimizado + FlashAttention, com foco em velocidade de inferência e eficiência de código

5. Llama 4

  • Adota de forma ativa a arquitetura MoE, garantindo tanto eficiência de inferência quanto capacidade do modelo, em uma estrutura semelhante à do DeepSeek-V3
  • Usa GQA, com diferenças no número de experts do MoE e no hidden size
    • DeepSeek-V3: 9 experts (2.048), Llama 4: 2 experts (8.192), com 17B de parâmetros ativos (DeepSeek: 37B)
  • Traz um design clássico de MoE com blocos MoE e blocos Dense inseridos de forma alternada
  • Confirma a popularização do MoE nos LLMs recentes

6. Qwen3

  • Oferece versões Dense de vários tamanhos (0.6B~32B) e versões MoE (30B-A3B, 235B-A22B)
  • O modelo pequeno (0.6B) se destaca pela eficiência de treinamento e inferência e pelo throughput de tokens. Garante excelente desempenho entre LLMs ultraleves, além de ótima eficiência de memória e praticidade de treinamento
  • Dense: mais camadas, menos memória, mas velocidade menor (em comparação com Llama 3 1B)
  • MoE: o Qwen3 235B-A22B tem 22B de parâmetros ativos e não usa shared expert (ao contrário do Qwen2.5-MoE anterior, que incluía shared expert), aumentando a eficiência
  • Qwen3 235B-A22B e DeepSeek-V3 são muito parecidos em sua estrutura geral
  • Ao oferecer Dense e MoE, atende a diversos objetivos de uso

7. SmolLM3

  • Modelo pequeno na faixa de 3B de parâmetros, competindo com Qwen3 1.7/4B, Llama 3 3B e Gemma 3 4B
  • A arquitetura é padrão, mas aplica NoPE (No Positional Embedding)
    • Usa apenas causal mask, sem positional encoding como RoPE
    • Melhora a generalização para comprimentos maiores (Length Generalization) em sequências longas
    • Estrutura experimental, aplicada apenas em algumas camadas

8. Kimi 2

  • Grande modelo aberto de 1 trilhão de parâmetros, o maior entre os modelos abertos
  • Baseado na estrutura do DeepSeek-V3, com expansão no número de camadas MoE e ajuste no número de heads do MLA
  • Usa o otimizador Muon em vez de AdamW no treinamento, melhorando a eficiência de treinamento e o loss decay
  • Tem mais experts MoE e menos heads de MLA que o DeepSeek-V3
  • Com base na experiência do Kimi 1.5, o Kimi 2 alcançou desempenho de ponta e divulgação de open weights

Conclusão e tendências

  • Os LLMs recentes mantêm a estrutura fundamental, mas se caracterizam pela ampliação de escala da arquitetura e pela adoção de MoE e de várias estruturas de eficiência
  • No caso dos modelos abertos, a divulgação transparente de dados, design e código aumenta seu valor para pesquisa e uso industrial
  • Dense e MoE, MLA·GQA·Sliding Window Attention e diferentes estratégias de normalização mostram que cada modelo tem um foco distinto de otimização
  • Este é um momento em que as opções de arquitetura se diversificaram conforme o ambiente de hardware, o objetivo de uso e a eficiência de treinamento e inferência

2 comentários

 
tensun 2025-07-22

Parece que o qwen lida bem com o coreano.

 
GN⁺ 2025-07-21
Comentários do Hacker News
  • Este texto trouxe um nível de abstração perfeito e explicações detalhadas para aprender sobre arquiteturas de LLM, então foi muito mais fácil absorver bastante informação do que lendo os artigos originais
  • Para quem está entre iniciante e especialista, os diagramas deste texto causam uma impressão muito forte, e ver os modelos mais recentes organizados de relance é realmente útil
  • Como material relacionado, também vale conferir um texto que explica como a DeepSeek melhorou a arquitetura Transformer e algumas seções de um artigo de análise sobre a superinteligência da Meta
  • Para pessoas como eu, que não conseguiam acompanhar as tendências mais recentes, esse tipo de resumo é realmente um ótimo catch-up
  • Tomara que no futuro saia uma parte 2 incluindo até rumores sobre modelos frontier de código fechado, como o5, o3 Pro, o4 ou 4.5, Gemini 2.5 Pro, Grok 4 e Claude Opus 4
  • Obrigado por organizar em detalhe as diferenças entre as várias arquiteturas de LLM; isso tornou tudo fácil de entender e bem educativo
  • Honestamente, comparado à época do GPT-2 (2019), a velocidade do avanço atual é difícil de acreditar. Hoje em dia já é difícil comparar corretamente o desempenho dos LLMs, e a cada duas semanas um modelo novo atualiza os benchmarks. Fiquei feliz em ver a menção à DeepSeek, porque as inovações de arquitetura introduzidas no V3 melhoraram muito a eficiência computacional, e esse foi o ponto decisivo que eliminou a diferença em relação aos outros modelos da época
  • Várias arquiteturas novas trouxeram muitas inovações em precisão e velocidade, mas o problema fundamental de garantir a geração de informação correta continua sem solução. Métodos como Retrieval Augmented Generation (RAG) e agentes ajudam a melhorar isso, mas também fico curioso se as arquiteturas do futuro acabarão substituindo essas abordagens
    • No fundo, os Transformers são treinados com o objetivo de prever texto, e esse método tem limites para incorporar lógica. Para reduzir ainda mais as alucinações, acho que seria necessário um objetivo de treinamento completamente diferente
    • O modelo não consegue distinguir quando pode generalizar em uma situação e quando precisa de mais informação. Por exemplo, não consegue diferenciar facilmente por que certos métodos existem e outras funções parecidas não. Quando eu era criança, certa vez chamei minha mãe de excelente cooker, sem saber que palavras diferentes são atribuídas a máquinas e a pessoas. Sinto que esse tipo de generalização entre palavras parecidas também se aplica aos modelos
    • Arquiteturas recentes como DeepSeek-V2 e Llama 3.1 mostram que melhorias de projeto, por si só, já aumentam bastante a factualidade. O pano de fundo disso está especialmente no mecanismo de attention e em objetivos de treinamento especializados em suprimir alucinações
    • O RAG (resposta baseada em busca) é estruturalmente simples e fácil de implementar, mas sempre me perguntei por que ele ainda não foi incorporado aos LLMs básicos. O fato de não conseguir ser integrado diretamente ao modelo parece ser uma evidência das limitações fundamentais do RAG e de suas variações. Se fosse um método realmente eficaz, acho que teria sido adotado como um recurso básico da arquitetura, e não como um acréscimo externo
  • Pedi ao Claude que lesse o texto original e propusesse uma nova arquitetura
    Link para o resultado do Claude
    Mas não sei muito bem se esse resultado é realmente utilizável