- Com a OpenAI lançando os modelos gpt-oss-20b/120b com pesos abertos, surge pela primeira vez desde o GPT-2 de 2019 um grande LLM da OpenAI com pesos públicos
- Em comparação com o GPT-2, os modelos gpt-oss evoluem ao substituir técnicas antigas como Dropout, Absolute Position Embedding e GELU por métodos modernos e mais eficientes, como RoPE, SwiGLU e RMSNorm
- A aplicação de Mixture-of-Experts (estrutura modular de especialistas), Sliding Window Attention e quantização MXFP4 melhora muito não só a eficiência de desempenho, mas também a execução em ambiente de GPU única
- Na comparação com o Qwen3, confirma-se a existência de várias diferenças em profundidade/largura da arquitetura, número de especialistas, viés de atenção, licença open source e outros pontos
- O gpt-oss-20b garante tanto uso prático quanto potencial de expansão em pesquisa, com leveza ajustada ao hardware moderno e recurso de controle de reasoning effort
Visão geral e principais inovações
- A OpenAI disponibilizou gpt-oss-20b/120b com pesos abertos pela primeira vez desde o GPT-2, em 2019
- Permite executar 20B em GPUs de usuários comuns (até 16GB de RAM) e 120B em uma H100 de 80GB
- Otimização com MXFP4 para execução em GPU única e maior acessibilidade para consumidores
Principais mudanças de arquitetura: GPT-2 → gpt-oss
Remoção do Dropout
- O GPT-2 incluía Dropout, mas em ambientes de treinamento com grandes volumes de dados e apenas uma epoch verificou-se que isso pode até prejudicar o desempenho
- Resultados de pesquisas recentes também mostram que não aplicar Dropout gera melhor desempenho em tarefas downstream de LLMs
Adoção de RoPE (Rotary Position Embedding)
- No lugar do embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se consolidou como abordagem dominante
- O RoPE gira o ângulo dos vetores de query/key de acordo com a posição, fornecendo informações posicionais mais flexíveis e generalizáveis
Introdução da função de ativação SwiGLU e de GLU
- Com a adoção de abordagens GLU como GEGLU/SwiGLU, obtém-se melhor capacidade de representação com menos parâmetros do que em FFNs tradicionais de 2 camadas
- O Swish também é computacionalmente mais eficiente do que o GELU
Aplicação de Mixture-of-Experts (MoE)
- Em vez de uma única FFN, usa-se uma rede com múltiplos especialistas (Experts), ativando apenas parte deles na geração de cada token
- Isso aumenta drasticamente o número de parâmetros do modelo sem perder eficiência de inferência (esparsidade), ampliando a capacidade de treinamento
Introdução de Grouped Query Attention (GQA)
- Em relação ao Multi-Head Attention tradicional, há redução de memória e custo computacional pelo compartilhamento de key/value
- A eficiência melhora sem perda de desempenho, tornando-se uma tendência padrão em LLMs de grande escala
Uso de Sliding Window Attention
- Em algumas camadas, em vez de usar todo o contexto, calcula-se atenção local com uma Sliding Window limitada aos 128 tokens mais recentes, minimizando o uso de memória
- Isso permite inferência mais rápida sem queda de desempenho e ajuda no suporte a grandes contextos
Adoção de RMSNorm
- A substituição de LayerNorm por RMSNorm aumenta a eficiência computacional
- Em vez de calcular média/variância como no LayerNorm, aplica-se RMS (root mean square), reduzindo a carga de processamento na GPU
Comparação entre gpt-oss e Qwen3
Diferenças de escala/estrutura
- O Qwen3 tem uma estrutura mais profunda (48 blocos Transformer), enquanto o gpt-oss tem uma estrutura mais larga (com aumento de emb dimension e número de heads)
- Modelos profundos são mais flexíveis, mas mais difíceis de treinar; modelos largos favorecem o paralelismo na inferência (no paper do Gemma 2, o modelo largo teve leve vantagem no caso do modelo 9B)
Diferenças na estrutura MoE
- gpt-oss-20b: 32 especialistas grandes, com apenas 4 ativados
- Qwen3: muitos especialistas pequenos, com 8 ativados
- A tendência mais recente aponta que configurações com mais especialistas pequenos são mais eficazes, mas o gpt-oss mantém a estrutura de poucos especialistas grandes (em 20B e 120B, ajusta-se apenas o número de especialistas e blocos)
Attention Bias e Sinks
- O gpt-oss usa unidades de bias na atenção (uma abordagem rara desde a era do GPT-2)
- Porém, pesquisas recentes mostram que o efeito é pequeno no key-proj
- O attention sink é o conceito de um token especial para o qual a atenção sempre se volta no início da sequência, mas no gpt-oss ele é aplicado a cada head na forma de learned bias logit, sem modificar os tokens de entrada
Licença e escopo de abertura
- Usa a licença open source Apache 2.0, permitindo uso comercial e criação livre de modelos derivados
- Ainda assim, não é open source no sentido mais estrito (não há abertura do código de treinamento nem dos datasets), sendo um modelo de open weight
Outros detalhes e operação prática
Treinamento/otimização
- O gpt-oss foi treinado com 2.1M H100-hours de recursos computacionais
- Foco em inglês, com concentração em STEM, programação e textos de conhecimento geral
- Aplica técnicas modernas como pré-treinamento + fine-tuning supervisionado (Instruction) e etapa de reasoning baseada em RL
Ajuste de Reasoning Effort
- É possível definir o reasoning effort (baixo/médio/alto) por meio do system prompt, ajustando automaticamente o comprimento e a precisão das respostas
- Tarefas simples podem ser executadas rapidamente com esforço baixo, enquanto tarefas complexas podem usar um nível mais alto de reasoning
Suporte a GPU única com quantização MXFP4
- Com o formato MXFP4, até o 20B pode rodar em 16GB de VRAM (desde que em GPU moderna)
- O 120B pode ser executado em GPU única com 80GB de memória no padrão H100, sem processamento distribuído e com operação mais simples
Benchmarks e usabilidade real
- O gpt-oss tem foco de treinamento fortemente voltado a reasoning, e em algumas perguntas de conhecimento geral pode apresentar tendência a alucinação (hallucination)
- Em termos de usabilidade, está entre os principais modelos abertos atuais, com potencial de maior utilidade prática ao ser combinado com tool integration
- No uso real, será preciso avaliar melhor o equilíbrio entre precisão e reasoning, além de comparar com outros modelos abertos no futuro
Comparação com o GPT-5
- O gpt-oss-120b apresenta desempenho próximo ao do modelo comercial da OpenAI (GPT-5) em benchmarks
- Ainda será preciso observar melhor sua vantagem em ambientes reais, mas ele já se mostra uma alternativa forte entre os LLMs mais recentes com pesos abertos
- Há limites para explicar totalmente a competitividade prática apenas com benchmarks, mas o modelo abre grandes oportunidades para comparações externas e pesquisa futura
Resumo
- O surgimento da série gpt-oss estabelece uma nova referência no campo dos grandes LLMs com pesos abertos, com comparação e análise detalhadas de como as arquiteturas inovadoras adotadas pelos LLMs modernos foram implementadas e aplicadas na prática
- Também permite entender diferenças e tendências em relação a outros modelos recentes, como Qwen3 e GPT-5, sendo útil para acompanhar o estado da arte em aplicação prática e pesquisa
Ainda não há comentários.