GPT-OSS vs. Qwen3 e uma comparação detalhada da evolução da arquitetura de LLMs desde o GPT-2
(magazine.sebastianraschka.com)- Com a OpenAI lançando os modelos gpt-oss-20b/120b com pesos abertos, surge pela primeira vez desde o GPT-2 de 2019 um grande LLM da OpenAI com pesos públicos
- Em comparação com o GPT-2, os modelos gpt-oss evoluem ao substituir técnicas antigas como Dropout, Absolute Position Embedding e GELU por métodos modernos e mais eficientes, como RoPE, SwiGLU e RMSNorm
- A aplicação de Mixture-of-Experts (estrutura modular de especialistas), Sliding Window Attention e quantização MXFP4 melhora muito não só a eficiência de desempenho, mas também a execução em ambiente de GPU única
- Na comparação com o Qwen3, confirma-se a existência de várias diferenças em profundidade/largura da arquitetura, número de especialistas, viés de atenção, licença open source e outros pontos
- O gpt-oss-20b garante tanto uso prático quanto potencial de expansão em pesquisa, com leveza ajustada ao hardware moderno e recurso de controle de reasoning effort
Visão geral e principais inovações
- A OpenAI disponibilizou gpt-oss-20b/120b com pesos abertos pela primeira vez desde o GPT-2, em 2019
- Permite executar 20B em GPUs de usuários comuns (até 16GB de RAM) e 120B em uma H100 de 80GB
- Otimização com MXFP4 para execução em GPU única e maior acessibilidade para consumidores
Principais mudanças de arquitetura: GPT-2 → gpt-oss
Remoção do Dropout
- O GPT-2 incluía Dropout, mas em ambientes de treinamento com grandes volumes de dados e apenas uma epoch verificou-se que isso pode até prejudicar o desempenho
- Resultados de pesquisas recentes também mostram que não aplicar Dropout gera melhor desempenho em tarefas downstream de LLMs
Adoção de RoPE (Rotary Position Embedding)
- No lugar do embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se consolidou como abordagem dominante
- O RoPE gira o ângulo dos vetores de query/key de acordo com a posição, fornecendo informações posicionais mais flexíveis e generalizáveis
Introdução da função de ativação SwiGLU e de GLU
- Com a adoção de abordagens GLU como GEGLU/SwiGLU, obtém-se melhor capacidade de representação com menos parâmetros do que em FFNs tradicionais de 2 camadas
- O Swish também é computacionalmente mais eficiente do que o GELU
Aplicação de Mixture-of-Experts (MoE)
- Em vez de uma única FFN, usa-se uma rede com múltiplos especialistas (Experts), ativando apenas parte deles na geração de cada token
- Isso aumenta drasticamente o número de parâmetros do modelo sem perder eficiência de inferência (esparsidade), ampliando a capacidade de treinamento
Introdução de Grouped Query Attention (GQA)
- Em relação ao Multi-Head Attention tradicional, há redução de memória e custo computacional pelo compartilhamento de key/value
- A eficiência melhora sem perda de desempenho, tornando-se uma tendência padrão em LLMs de grande escala
Uso de Sliding Window Attention
- Em algumas camadas, em vez de usar todo o contexto, calcula-se atenção local com uma Sliding Window limitada aos 128 tokens mais recentes, minimizando o uso de memória
- Isso permite inferência mais rápida sem queda de desempenho e ajuda no suporte a grandes contextos
Adoção de RMSNorm
- A substituição de LayerNorm por RMSNorm aumenta a eficiência computacional
- Em vez de calcular média/variância como no LayerNorm, aplica-se RMS (root mean square), reduzindo a carga de processamento na GPU
Comparação entre gpt-oss e Qwen3
Diferenças de escala/estrutura
- O Qwen3 tem uma estrutura mais profunda (48 blocos Transformer), enquanto o gpt-oss tem uma estrutura mais larga (com aumento de emb dimension e número de heads)
- Modelos profundos são mais flexíveis, mas mais difíceis de treinar; modelos largos favorecem o paralelismo na inferência (no paper do Gemma 2, o modelo largo teve leve vantagem no caso do modelo 9B)
Diferenças na estrutura MoE
- gpt-oss-20b: 32 especialistas grandes, com apenas 4 ativados
- Qwen3: muitos especialistas pequenos, com 8 ativados
- A tendência mais recente aponta que configurações com mais especialistas pequenos são mais eficazes, mas o gpt-oss mantém a estrutura de poucos especialistas grandes (em 20B e 120B, ajusta-se apenas o número de especialistas e blocos)
Attention Bias e Sinks
- O gpt-oss usa unidades de bias na atenção (uma abordagem rara desde a era do GPT-2)
- Porém, pesquisas recentes mostram que o efeito é pequeno no key-proj
- O attention sink é o conceito de um token especial para o qual a atenção sempre se volta no início da sequência, mas no gpt-oss ele é aplicado a cada head na forma de learned bias logit, sem modificar os tokens de entrada
Licença e escopo de abertura
- Usa a licença open source Apache 2.0, permitindo uso comercial e criação livre de modelos derivados
- Ainda assim, não é open source no sentido mais estrito (não há abertura do código de treinamento nem dos datasets), sendo um modelo de open weight
Outros detalhes e operação prática
Treinamento/otimização
- O gpt-oss foi treinado com 2.1M H100-hours de recursos computacionais
- Foco em inglês, com concentração em STEM, programação e textos de conhecimento geral
- Aplica técnicas modernas como pré-treinamento + fine-tuning supervisionado (Instruction) e etapa de reasoning baseada em RL
Ajuste de Reasoning Effort
- É possível definir o reasoning effort (baixo/médio/alto) por meio do system prompt, ajustando automaticamente o comprimento e a precisão das respostas
- Tarefas simples podem ser executadas rapidamente com esforço baixo, enquanto tarefas complexas podem usar um nível mais alto de reasoning
Suporte a GPU única com quantização MXFP4
- Com o formato MXFP4, até o 20B pode rodar em 16GB de VRAM (desde que em GPU moderna)
- O 120B pode ser executado em GPU única com 80GB de memória no padrão H100, sem processamento distribuído e com operação mais simples
Benchmarks e usabilidade real
- O gpt-oss tem foco de treinamento fortemente voltado a reasoning, e em algumas perguntas de conhecimento geral pode apresentar tendência a alucinação (hallucination)
- Em termos de usabilidade, está entre os principais modelos abertos atuais, com potencial de maior utilidade prática ao ser combinado com tool integration
- No uso real, será preciso avaliar melhor o equilíbrio entre precisão e reasoning, além de comparar com outros modelos abertos no futuro
Comparação com o GPT-5
- O gpt-oss-120b apresenta desempenho próximo ao do modelo comercial da OpenAI (GPT-5) em benchmarks
- Ainda será preciso observar melhor sua vantagem em ambientes reais, mas ele já se mostra uma alternativa forte entre os LLMs mais recentes com pesos abertos
- Há limites para explicar totalmente a competitividade prática apenas com benchmarks, mas o modelo abre grandes oportunidades para comparações externas e pesquisa futura
Resumo
- O surgimento da série gpt-oss estabelece uma nova referência no campo dos grandes LLMs com pesos abertos, com comparação e análise detalhadas de como as arquiteturas inovadoras adotadas pelos LLMs modernos foram implementadas e aplicadas na prática
- Também permite entender diferenças e tendências em relação a outros modelos recentes, como Qwen3 e GPT-5, sendo útil para acompanhar o estado da arte em aplicação prática e pesquisa
1 comentários
Comentários do Hacker News
Confirmei que o Qwen3 é muito superior em testes locais. Na versão de 32B parâmetros, ele segue o prompt quase perfeitamente e produz resultados naturais. Já o simplebench gpt-oss (120B) mostra desempenho ruim em quebra-cabeças lógicos. Acho que essa diferença vem do método de treinamento, das dimensões do modelo e também de poucos especialistas grandes vs. muitos especialistas pequenos
sqrt(número de heads ativos * número total de parâmetros). Por exemplo,sqrt(120*5) ~= 24, então o GPT-OSS 120B na prática entrega desempenho de algo em torno de 24B com velocidade de um modelo muito menorOs posts do blog do Sebastian Raschk são um tesouro de informação. Uso os modelos get-oss e qwen3 localmente com Ollama e LM Studio, e para modelos grandes uso APIs comerciais. O get-oss dá bons resultados quando você passa bastante contexto no prompt, e o qwen3 é simplesmente excelente. Até 3 anos atrás, eu entendia bem o suficiente de machine learning para implementar de fato redes neurais, GANs, RNNs, LSTMs etc., mas os LLMs de hoje já não são algo tão fácil de desenvolver por conta própria, o que é uma pena. Também estou vendo o livro do Sebastian Raschk, embora ache que provavelmente não vou conseguir terminar
Rodei o qwen3 coder instruct 30b-a3b exl3 q6 localmente em uma GPU 3090 e cheguei a fazer uma página de exemplo, iniciar o servidor, detectar um servidor já em execução, encerrá-lo manualmente (até pedindo permissão), reiniciar, encontrar o IP automaticamente e abrir no navegador. Já não é mais só uma demo simples, e sim uma ajuda realmente útil até para júnior ou estagiário
Pela minha experiência, o qwen3-coder é muito superior. Também instalei o gpt-oss:20b, mas quando peço um resumo de código, o qwen3 responde em segundos, enquanto o gpt-oss fica mais de 5 minutos sem fazer nada e eu acabo interrompendo. Então uso só o qwen3. Se eu não consigo a resposta que quero, uso um mecanismo de busca ou o Perplexity. Estou usando uma 3080 de 10GB, Ryzen 3600x e 32GB de RAM. O Qwen3-coder é o melhor que já usei até agora
llama.cpp, esse problema sumiu ao reduzir o valor da penalidade de repetição (uso principalmente para análise de diff algumas vezes por dia). Claro, também pode ser que eu só tenha dado sorteAcho interessante que os LLMs open-weight de hoje tenham arquiteturas tão parecidas e que a inovação esteja acontecendo quase só nos dados e em RL. Antigamente, em grandes organizações de ML, tuning de arquitetura parecia ser a coisa mais importante, mas a realidade agora parece diferente
Estou usando muito bem o modelo Qwen3 4B localmente. Quase não uso modelos online e a busca na web também fica bem mais direcionada. Não confio 100%, mas no geral é bom. Tenho certeza de que esses modelos open source vão mudar o jogo da automação de conhecimento local
No LM Arena, o melhor modelo que não é baseado em Transformer puro é o Jamba (uma arquitetura híbrida de Transformers com modelos de espaço de estado, em 96º). O hunyuan-turbos da Tencent também é híbrido e está em 22º. Veja o artigo no arXiv
LLMs normalmente treinam em datasets enormes apenas uma vez (uma única época). Isso é um ambiente diferente do método de Dropout, que partia do pressuposto de treinamento repetido por várias passagens (centenas de épocas)
Fico imaginando o quanto os modelos publicados por grandes labs poderiam melhorar com mais treinamento adicional. Por exemplo, se o GPT-OSS treinou por 2,1 milhões de horas, quanto ele melhoraria se isso fosse dobrado?
Ao acessar o site, recebo a mensagem de erro "Sua conexão não é segura". Também aparece "Não é possível visitar este site agora porque o site magazine.sebastianraschka.com usa HSTS". Estou em Ubuntu com a versão mais recente do Chrome