GPT-OSS vs. Qwen3 e uma comparação detalhada da evolução da arquitetura de LLMs desde o GPT-2

(magazine.sebastianraschka.com)

27 pontos por GN⁺ 2025-08-11 | Ainda não há comentários. | Compartilhar no WhatsApp

Com a OpenAI lançando os modelos gpt-oss-20b/120b com pesos abertos, surge pela primeira vez desde o GPT-2 de 2019 um grande LLM da OpenAI com pesos públicos
Em comparação com o GPT-2, os modelos gpt-oss evoluem ao substituir técnicas antigas como Dropout, Absolute Position Embedding e GELU por métodos modernos e mais eficientes, como RoPE, SwiGLU e RMSNorm
A aplicação de Mixture-of-Experts (estrutura modular de especialistas), Sliding Window Attention e quantização MXFP4 melhora muito não só a eficiência de desempenho, mas também a execução em ambiente de GPU única
Na comparação com o Qwen3, confirma-se a existência de várias diferenças em profundidade/largura da arquitetura, número de especialistas, viés de atenção, licença open source e outros pontos
O gpt-oss-20b garante tanto uso prático quanto potencial de expansão em pesquisa, com leveza ajustada ao hardware moderno e recurso de controle de reasoning effort

Visão geral e principais inovações

A OpenAI disponibilizou gpt-oss-20b/120b com pesos abertos pela primeira vez desde o GPT-2, em 2019
- Permite executar 20B em GPUs de usuários comuns (até 16GB de RAM) e 120B em uma H100 de 80GB
- Otimização com MXFP4 para execução em GPU única e maior acessibilidade para consumidores

Principais mudanças de arquitetura: GPT-2 → gpt-oss

Remoção do Dropout

O GPT-2 incluía Dropout, mas em ambientes de treinamento com grandes volumes de dados e apenas uma epoch verificou-se que isso pode até prejudicar o desempenho
Resultados de pesquisas recentes também mostram que não aplicar Dropout gera melhor desempenho em tarefas downstream de LLMs

Adoção de RoPE (Rotary Position Embedding)

No lugar do embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se consolidou como abordagem dominante
O RoPE gira o ângulo dos vetores de query/key de acordo com a posição, fornecendo informações posicionais mais flexíveis e generalizáveis

Introdução da função de ativação SwiGLU e de GLU

Com a adoção de abordagens GLU como GEGLU/SwiGLU, obtém-se melhor capacidade de representação com menos parâmetros do que em FFNs tradicionais de 2 camadas
O Swish também é computacionalmente mais eficiente do que o GELU

Aplicação de Mixture-of-Experts (MoE)

Em vez de uma única FFN, usa-se uma rede com múltiplos especialistas (Experts), ativando apenas parte deles na geração de cada token
Isso aumenta drasticamente o número de parâmetros do modelo sem perder eficiência de inferência (esparsidade), ampliando a capacidade de treinamento

Introdução de Grouped Query Attention (GQA)

Em relação ao Multi-Head Attention tradicional, há redução de memória e custo computacional pelo compartilhamento de key/value
A eficiência melhora sem perda de desempenho, tornando-se uma tendência padrão em LLMs de grande escala

Uso de Sliding Window Attention

Em algumas camadas, em vez de usar todo o contexto, calcula-se atenção local com uma Sliding Window limitada aos 128 tokens mais recentes, minimizando o uso de memória
Isso permite inferência mais rápida sem queda de desempenho e ajuda no suporte a grandes contextos

Adoção de RMSNorm

A substituição de LayerNorm por RMSNorm aumenta a eficiência computacional
Em vez de calcular média/variância como no LayerNorm, aplica-se RMS (root mean square), reduzindo a carga de processamento na GPU

Comparação entre gpt-oss e Qwen3

Diferenças de escala/estrutura

O Qwen3 tem uma estrutura mais profunda (48 blocos Transformer), enquanto o gpt-oss tem uma estrutura mais larga (com aumento de emb dimension e número de heads)
Modelos profundos são mais flexíveis, mas mais difíceis de treinar; modelos largos favorecem o paralelismo na inferência (no paper do Gemma 2, o modelo largo teve leve vantagem no caso do modelo 9B)

Diferenças na estrutura MoE

gpt-oss-20b: 32 especialistas grandes, com apenas 4 ativados
Qwen3: muitos especialistas pequenos, com 8 ativados
A tendência mais recente aponta que configurações com mais especialistas pequenos são mais eficazes, mas o gpt-oss mantém a estrutura de poucos especialistas grandes (em 20B e 120B, ajusta-se apenas o número de especialistas e blocos)

Attention Bias e Sinks

O gpt-oss usa unidades de bias na atenção (uma abordagem rara desde a era do GPT-2)
- Porém, pesquisas recentes mostram que o efeito é pequeno no key-proj
O attention sink é o conceito de um token especial para o qual a atenção sempre se volta no início da sequência, mas no gpt-oss ele é aplicado a cada head na forma de learned bias logit, sem modificar os tokens de entrada

Licença e escopo de abertura

Usa a licença open source Apache 2.0, permitindo uso comercial e criação livre de modelos derivados
Ainda assim, não é open source no sentido mais estrito (não há abertura do código de treinamento nem dos datasets), sendo um modelo de open weight

Outros detalhes e operação prática

Treinamento/otimização

O gpt-oss foi treinado com 2.1M H100-hours de recursos computacionais
Foco em inglês, com concentração em STEM, programação e textos de conhecimento geral
Aplica técnicas modernas como pré-treinamento + fine-tuning supervisionado (Instruction) e etapa de reasoning baseada em RL

Ajuste de Reasoning Effort

É possível definir o reasoning effort (baixo/médio/alto) por meio do system prompt, ajustando automaticamente o comprimento e a precisão das respostas
Tarefas simples podem ser executadas rapidamente com esforço baixo, enquanto tarefas complexas podem usar um nível mais alto de reasoning

Suporte a GPU única com quantização MXFP4

Com o formato MXFP4, até o 20B pode rodar em 16GB de VRAM (desde que em GPU moderna)
O 120B pode ser executado em GPU única com 80GB de memória no padrão H100, sem processamento distribuído e com operação mais simples

Benchmarks e usabilidade real

O gpt-oss tem foco de treinamento fortemente voltado a reasoning, e em algumas perguntas de conhecimento geral pode apresentar tendência a alucinação (hallucination)
Em termos de usabilidade, está entre os principais modelos abertos atuais, com potencial de maior utilidade prática ao ser combinado com tool integration
No uso real, será preciso avaliar melhor o equilíbrio entre precisão e reasoning, além de comparar com outros modelos abertos no futuro

Comparação com o GPT-5

O gpt-oss-120b apresenta desempenho próximo ao do modelo comercial da OpenAI (GPT-5) em benchmarks
Ainda será preciso observar melhor sua vantagem em ambientes reais, mas ele já se mostra uma alternativa forte entre os LLMs mais recentes com pesos abertos
Há limites para explicar totalmente a competitividade prática apenas com benchmarks, mas o modelo abre grandes oportunidades para comparações externas e pesquisa futura

Resumo

O surgimento da série gpt-oss estabelece uma nova referência no campo dos grandes LLMs com pesos abertos, com comparação e análise detalhadas de como as arquiteturas inovadoras adotadas pelos LLMs modernos foram implementadas e aplicadas na prática
Também permite entender diferenças e tendências em relação a outros modelos recentes, como Qwen3 e GPT-5, sendo útil para acompanhar o estado da arte em aplicação prática e pesquisa

GPT-OSS vs. Qwen3 e uma comparação detalhada da evolução da arquitetura de LLMs desde o GPT-2

Visão geral e principais inovações

Principais mudanças de arquitetura: GPT-2 → gpt-oss

Remoção do Dropout

Adoção de RoPE (Rotary Position Embedding)

Introdução da função de ativação SwiGLU e de GLU

Aplicação de Mixture-of-Experts (MoE)

Introdução de Grouped Query Attention (GQA)

Uso de Sliding Window Attention

Adoção de RMSNorm

Comparação entre gpt-oss e Qwen3

Diferenças de escala/estrutura

Diferenças na estrutura MoE

Attention Bias e Sinks

Licença e escopo de abertura

Outros detalhes e operação prática

Treinamento/otimização

Ajuste de Reasoning Effort

Suporte a GPU única com quantização MXFP4

Benchmarks e usabilidade real

Comparação com o GPT-5

Resumo

Leituras relacionadas

Ainda não há comentários.