27 pontos por GN⁺ 2025-08-11 | 1 comentários | Compartilhar no WhatsApp
  • Com a OpenAI lançando os modelos gpt-oss-20b/120b com pesos abertos, surge pela primeira vez desde o GPT-2 de 2019 um grande LLM da OpenAI com pesos públicos
  • Em comparação com o GPT-2, os modelos gpt-oss evoluem ao substituir técnicas antigas como Dropout, Absolute Position Embedding e GELU por métodos modernos e mais eficientes, como RoPE, SwiGLU e RMSNorm
  • A aplicação de Mixture-of-Experts (estrutura modular de especialistas), Sliding Window Attention e quantização MXFP4 melhora muito não só a eficiência de desempenho, mas também a execução em ambiente de GPU única
  • Na comparação com o Qwen3, confirma-se a existência de várias diferenças em profundidade/largura da arquitetura, número de especialistas, viés de atenção, licença open source e outros pontos
  • O gpt-oss-20b garante tanto uso prático quanto potencial de expansão em pesquisa, com leveza ajustada ao hardware moderno e recurso de controle de reasoning effort

Visão geral e principais inovações

  • A OpenAI disponibilizou gpt-oss-20b/120b com pesos abertos pela primeira vez desde o GPT-2, em 2019
    • Permite executar 20B em GPUs de usuários comuns (até 16GB de RAM) e 120B em uma H100 de 80GB
    • Otimização com MXFP4 para execução em GPU única e maior acessibilidade para consumidores

Principais mudanças de arquitetura: GPT-2 → gpt-oss

Remoção do Dropout

  • O GPT-2 incluía Dropout, mas em ambientes de treinamento com grandes volumes de dados e apenas uma epoch verificou-se que isso pode até prejudicar o desempenho
  • Resultados de pesquisas recentes também mostram que não aplicar Dropout gera melhor desempenho em tarefas downstream de LLMs

Adoção de RoPE (Rotary Position Embedding)

  • No lugar do embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se consolidou como abordagem dominante
  • O RoPE gira o ângulo dos vetores de query/key de acordo com a posição, fornecendo informações posicionais mais flexíveis e generalizáveis

Introdução da função de ativação SwiGLU e de GLU

  • Com a adoção de abordagens GLU como GEGLU/SwiGLU, obtém-se melhor capacidade de representação com menos parâmetros do que em FFNs tradicionais de 2 camadas
  • O Swish também é computacionalmente mais eficiente do que o GELU

Aplicação de Mixture-of-Experts (MoE)

  • Em vez de uma única FFN, usa-se uma rede com múltiplos especialistas (Experts), ativando apenas parte deles na geração de cada token
  • Isso aumenta drasticamente o número de parâmetros do modelo sem perder eficiência de inferência (esparsidade), ampliando a capacidade de treinamento

Introdução de Grouped Query Attention (GQA)

  • Em relação ao Multi-Head Attention tradicional, há redução de memória e custo computacional pelo compartilhamento de key/value
  • A eficiência melhora sem perda de desempenho, tornando-se uma tendência padrão em LLMs de grande escala

Uso de Sliding Window Attention

  • Em algumas camadas, em vez de usar todo o contexto, calcula-se atenção local com uma Sliding Window limitada aos 128 tokens mais recentes, minimizando o uso de memória
  • Isso permite inferência mais rápida sem queda de desempenho e ajuda no suporte a grandes contextos

Adoção de RMSNorm

  • A substituição de LayerNorm por RMSNorm aumenta a eficiência computacional
  • Em vez de calcular média/variância como no LayerNorm, aplica-se RMS (root mean square), reduzindo a carga de processamento na GPU

Comparação entre gpt-oss e Qwen3

Diferenças de escala/estrutura

  • O Qwen3 tem uma estrutura mais profunda (48 blocos Transformer), enquanto o gpt-oss tem uma estrutura mais larga (com aumento de emb dimension e número de heads)
  • Modelos profundos são mais flexíveis, mas mais difíceis de treinar; modelos largos favorecem o paralelismo na inferência (no paper do Gemma 2, o modelo largo teve leve vantagem no caso do modelo 9B)

Diferenças na estrutura MoE

  • gpt-oss-20b: 32 especialistas grandes, com apenas 4 ativados
  • Qwen3: muitos especialistas pequenos, com 8 ativados
  • A tendência mais recente aponta que configurações com mais especialistas pequenos são mais eficazes, mas o gpt-oss mantém a estrutura de poucos especialistas grandes (em 20B e 120B, ajusta-se apenas o número de especialistas e blocos)

Attention Bias e Sinks

  • O gpt-oss usa unidades de bias na atenção (uma abordagem rara desde a era do GPT-2)
    • Porém, pesquisas recentes mostram que o efeito é pequeno no key-proj
  • O attention sink é o conceito de um token especial para o qual a atenção sempre se volta no início da sequência, mas no gpt-oss ele é aplicado a cada head na forma de learned bias logit, sem modificar os tokens de entrada

Licença e escopo de abertura

  • Usa a licença open source Apache 2.0, permitindo uso comercial e criação livre de modelos derivados
  • Ainda assim, não é open source no sentido mais estrito (não há abertura do código de treinamento nem dos datasets), sendo um modelo de open weight

Outros detalhes e operação prática

Treinamento/otimização

  • O gpt-oss foi treinado com 2.1M H100-hours de recursos computacionais
  • Foco em inglês, com concentração em STEM, programação e textos de conhecimento geral
  • Aplica técnicas modernas como pré-treinamento + fine-tuning supervisionado (Instruction) e etapa de reasoning baseada em RL

Ajuste de Reasoning Effort

  • É possível definir o reasoning effort (baixo/médio/alto) por meio do system prompt, ajustando automaticamente o comprimento e a precisão das respostas
  • Tarefas simples podem ser executadas rapidamente com esforço baixo, enquanto tarefas complexas podem usar um nível mais alto de reasoning

Suporte a GPU única com quantização MXFP4

  • Com o formato MXFP4, até o 20B pode rodar em 16GB de VRAM (desde que em GPU moderna)
  • O 120B pode ser executado em GPU única com 80GB de memória no padrão H100, sem processamento distribuído e com operação mais simples

Benchmarks e usabilidade real

  • O gpt-oss tem foco de treinamento fortemente voltado a reasoning, e em algumas perguntas de conhecimento geral pode apresentar tendência a alucinação (hallucination)
  • Em termos de usabilidade, está entre os principais modelos abertos atuais, com potencial de maior utilidade prática ao ser combinado com tool integration
  • No uso real, será preciso avaliar melhor o equilíbrio entre precisão e reasoning, além de comparar com outros modelos abertos no futuro

Comparação com o GPT-5

  • O gpt-oss-120b apresenta desempenho próximo ao do modelo comercial da OpenAI (GPT-5) em benchmarks
  • Ainda será preciso observar melhor sua vantagem em ambientes reais, mas ele já se mostra uma alternativa forte entre os LLMs mais recentes com pesos abertos
  • Há limites para explicar totalmente a competitividade prática apenas com benchmarks, mas o modelo abre grandes oportunidades para comparações externas e pesquisa futura

Resumo

  • O surgimento da série gpt-oss estabelece uma nova referência no campo dos grandes LLMs com pesos abertos, com comparação e análise detalhadas de como as arquiteturas inovadoras adotadas pelos LLMs modernos foram implementadas e aplicadas na prática
  • Também permite entender diferenças e tendências em relação a outros modelos recentes, como Qwen3 e GPT-5, sendo útil para acompanhar o estado da arte em aplicação prática e pesquisa

1 comentários

 
GN⁺ 2025-08-11
Comentários do Hacker News
  • Confirmei que o Qwen3 é muito superior em testes locais. Na versão de 32B parâmetros, ele segue o prompt quase perfeitamente e produz resultados naturais. Já o simplebench gpt-oss (120B) mostra desempenho ruim em quebra-cabeças lógicos. Acho que essa diferença vem do método de treinamento, das dimensões do modelo e também de poucos especialistas grandes vs. muitos especialistas pequenos

    • O Qwen3 32B é um modelo denso que sempre usa todos os parâmetros. O GPT OSS 20B é um modelo MoE esparso (Mixture of Experts) que usa só uma parte deles, ativando cerca de 3,6B por vez. Por isso, ele é mais rápido que um modelo denso de 20B e mais inteligente que um modelo de 3,6B. Uma comparação justa seria com um modelo denso de 8B, e modelos como o Qwen Coder 30B A3B também seriam uma boa referência
    • Na minha opinião, essa diferença tem muito mais a ver com os dados e o pipeline de treinamento do que com a arquitetura do modelo. Há comentários de que o gpt-oss usou apenas datasets sintéticos no estilo Phi e focou principalmente em jogos de benchmark, e as evidências disso parecem bastante convincentes
    • A fórmula de desempenho esperada para MoE é sqrt(número de heads ativos * número total de parâmetros). Por exemplo, sqrt(120*5) ~= 24, então o GPT-OSS 120B na prática entrega desempenho de algo em torno de 24B com velocidade de um modelo muito menor
    • O qwen3 tende a ser lento. Usei diretamente e ele funciona, mas parece lento e com menos recursos
  • Os posts do blog do Sebastian Raschk são um tesouro de informação. Uso os modelos get-oss e qwen3 localmente com Ollama e LM Studio, e para modelos grandes uso APIs comerciais. O get-oss dá bons resultados quando você passa bastante contexto no prompt, e o qwen3 é simplesmente excelente. Até 3 anos atrás, eu entendia bem o suficiente de machine learning para implementar de fato redes neurais, GANs, RNNs, LSTMs etc., mas os LLMs de hoje já não são algo tão fácil de desenvolver por conta própria, o que é uma pena. Também estou vendo o livro do Sebastian Raschk, embora ache que provavelmente não vou conseguir terminar

    • Em uma área que muda numa velocidade quase inacreditável, o Sebastian Raschk tem sido extremamente útil por sempre resumir as novidades mais recentes de forma concisa
  • Rodei o qwen3 coder instruct 30b-a3b exl3 q6 localmente em uma GPU 3090 e cheguei a fazer uma página de exemplo, iniciar o servidor, detectar um servidor já em execução, encerrá-lo manualmente (até pedindo permissão), reiniciar, encontrar o IP automaticamente e abrir no navegador. Já não é mais só uma demo simples, e sim uma ajuda realmente útil até para júnior ou estagiário

  • Pela minha experiência, o qwen3-coder é muito superior. Também instalei o gpt-oss:20b, mas quando peço um resumo de código, o qwen3 responde em segundos, enquanto o gpt-oss fica mais de 5 minutos sem fazer nada e eu acabo interrompendo. Então uso só o qwen3. Se eu não consigo a resposta que quero, uso um mecanismo de busca ou o Perplexity. Estou usando uma 3080 de 10GB, Ryzen 3600x e 32GB de RAM. O Qwen3-coder é o melhor que já usei até agora

    • O Qwen3 coder 480B é bom a ponto de bater de frente com o Sonnet 4. Foi a primeira vez que senti de verdade que modelos chineses podem ultrapassar em breve os modelos baseados nos EUA, especialmente em programação
    • Pode ser que o problema tenha acontecido porque o gpt-oss 20B não cabe em 10GB
    • Eu também uso o gpt-oss-20b de forma simples, e com prompts curtos (frases curtas) ele às vezes entra em repetição infinita. Quando rodei com llama.cpp, esse problema sumiu ao reduzir o valor da penalidade de repetição (uso principalmente para análise de diff algumas vezes por dia). Claro, também pode ser que eu só tenha dado sorte
    • Fiquei curioso se você está usando de forma agentic (automação com várias rodadas de perguntas e respostas) ou só no modo copiar e colar, tipo “escreva este código”. Queria saber o quanto os modelos abertos mais recentes já se aproximaram dos modelos comerciais em programação agentic
  • Acho interessante que os LLMs open-weight de hoje tenham arquiteturas tão parecidas e que a inovação esteja acontecendo quase só nos dados e em RL. Antigamente, em grandes organizações de ML, tuning de arquitetura parecia ser a coisa mais importante, mas a realidade agora parece diferente

    • Na escala dos LLMs, eu diria que tuning de hiperparâmetros em si é praticamente inviável. O custo é alto demais, então fazem apenas testes básicos com várias arquiteturas, escolhem uma e depois otimizam com dados e RL
    • Boa observação. Os LLMs fizeram com que qualquer um com recursos suficientes possa tentar. A arquitetura é relativamente robusta a ajustes e, se você colocar computação e dados suficientes, dá para fazer um modelo razoável mesmo quebrando scaling laws, como o Llama 3 mostrou no passado
  • Estou usando muito bem o modelo Qwen3 4B localmente. Quase não uso modelos online e a busca na web também fica bem mais direcionada. Não confio 100%, mas no geral é bom. Tenho certeza de que esses modelos open source vão mudar o jogo da automação de conhecimento local

    • Fiquei curioso se o Qwen está apenas sugerindo parâmetros melhores de busca ou se ele realmente também faz busca na web
  • No LM Arena, o melhor modelo que não é baseado em Transformer puro é o Jamba (uma arquitetura híbrida de Transformers com modelos de espaço de estado, em 96º). O hunyuan-turbos da Tencent também é híbrido e está em 22º. Veja o artigo no arXiv

  • LLMs normalmente treinam em datasets enormes apenas uma vez (uma única época). Isso é um ambiente diferente do método de Dropout, que partia do pressuposto de treinamento repetido por várias passagens (centenas de épocas)

    • Isso é bem conhecido. Basta ver a Tabela 2.2 do artigo do GPT-3
  • Fico imaginando o quanto os modelos publicados por grandes labs poderiam melhorar com mais treinamento adicional. Por exemplo, se o GPT-OSS treinou por 2,1 milhões de horas, quanto ele melhoraria se isso fosse dobrado?

    • O GPT-4.5 talvez na verdade tenha sido planejado como um GPT-5 maior e treinado com mais dados. Mas, por ser caro demais, não conseguiram levá-lo a uma comercialização em larga escala, e também ficou a frustração de não vermos uma versão com RL aplicada
    • Já está ficando claro que as técnicas mais avançadas de treinamento com RL usadas no GPT-5 também não escalam indefinidamente
  • Ao acessar o site, recebo a mensagem de erro "Sua conexão não é segura". Também aparece "Não é possível visitar este site agora porque o site magazine.sebastianraschka.com usa HSTS". Estou em Ubuntu com a versão mais recente do Chrome