27 pontos por GN⁺ 2025-08-11 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Com a OpenAI lançando os modelos gpt-oss-20b/120b com pesos abertos, surge pela primeira vez desde o GPT-2 de 2019 um grande LLM da OpenAI com pesos públicos
  • Em comparação com o GPT-2, os modelos gpt-oss evoluem ao substituir técnicas antigas como Dropout, Absolute Position Embedding e GELU por métodos modernos e mais eficientes, como RoPE, SwiGLU e RMSNorm
  • A aplicação de Mixture-of-Experts (estrutura modular de especialistas), Sliding Window Attention e quantização MXFP4 melhora muito não só a eficiência de desempenho, mas também a execução em ambiente de GPU única
  • Na comparação com o Qwen3, confirma-se a existência de várias diferenças em profundidade/largura da arquitetura, número de especialistas, viés de atenção, licença open source e outros pontos
  • O gpt-oss-20b garante tanto uso prático quanto potencial de expansão em pesquisa, com leveza ajustada ao hardware moderno e recurso de controle de reasoning effort

Visão geral e principais inovações

  • A OpenAI disponibilizou gpt-oss-20b/120b com pesos abertos pela primeira vez desde o GPT-2, em 2019
    • Permite executar 20B em GPUs de usuários comuns (até 16GB de RAM) e 120B em uma H100 de 80GB
    • Otimização com MXFP4 para execução em GPU única e maior acessibilidade para consumidores

Principais mudanças de arquitetura: GPT-2 → gpt-oss

Remoção do Dropout

  • O GPT-2 incluía Dropout, mas em ambientes de treinamento com grandes volumes de dados e apenas uma epoch verificou-se que isso pode até prejudicar o desempenho
  • Resultados de pesquisas recentes também mostram que não aplicar Dropout gera melhor desempenho em tarefas downstream de LLMs

Adoção de RoPE (Rotary Position Embedding)

  • No lugar do embedding posicional absoluto tradicional, RoPE (Rotary Position Embedding) se consolidou como abordagem dominante
  • O RoPE gira o ângulo dos vetores de query/key de acordo com a posição, fornecendo informações posicionais mais flexíveis e generalizáveis

Introdução da função de ativação SwiGLU e de GLU

  • Com a adoção de abordagens GLU como GEGLU/SwiGLU, obtém-se melhor capacidade de representação com menos parâmetros do que em FFNs tradicionais de 2 camadas
  • O Swish também é computacionalmente mais eficiente do que o GELU

Aplicação de Mixture-of-Experts (MoE)

  • Em vez de uma única FFN, usa-se uma rede com múltiplos especialistas (Experts), ativando apenas parte deles na geração de cada token
  • Isso aumenta drasticamente o número de parâmetros do modelo sem perder eficiência de inferência (esparsidade), ampliando a capacidade de treinamento

Introdução de Grouped Query Attention (GQA)

  • Em relação ao Multi-Head Attention tradicional, há redução de memória e custo computacional pelo compartilhamento de key/value
  • A eficiência melhora sem perda de desempenho, tornando-se uma tendência padrão em LLMs de grande escala

Uso de Sliding Window Attention

  • Em algumas camadas, em vez de usar todo o contexto, calcula-se atenção local com uma Sliding Window limitada aos 128 tokens mais recentes, minimizando o uso de memória
  • Isso permite inferência mais rápida sem queda de desempenho e ajuda no suporte a grandes contextos

Adoção de RMSNorm

  • A substituição de LayerNorm por RMSNorm aumenta a eficiência computacional
  • Em vez de calcular média/variância como no LayerNorm, aplica-se RMS (root mean square), reduzindo a carga de processamento na GPU

Comparação entre gpt-oss e Qwen3

Diferenças de escala/estrutura

  • O Qwen3 tem uma estrutura mais profunda (48 blocos Transformer), enquanto o gpt-oss tem uma estrutura mais larga (com aumento de emb dimension e número de heads)
  • Modelos profundos são mais flexíveis, mas mais difíceis de treinar; modelos largos favorecem o paralelismo na inferência (no paper do Gemma 2, o modelo largo teve leve vantagem no caso do modelo 9B)

Diferenças na estrutura MoE

  • gpt-oss-20b: 32 especialistas grandes, com apenas 4 ativados
  • Qwen3: muitos especialistas pequenos, com 8 ativados
  • A tendência mais recente aponta que configurações com mais especialistas pequenos são mais eficazes, mas o gpt-oss mantém a estrutura de poucos especialistas grandes (em 20B e 120B, ajusta-se apenas o número de especialistas e blocos)

Attention Bias e Sinks

  • O gpt-oss usa unidades de bias na atenção (uma abordagem rara desde a era do GPT-2)
    • Porém, pesquisas recentes mostram que o efeito é pequeno no key-proj
  • O attention sink é o conceito de um token especial para o qual a atenção sempre se volta no início da sequência, mas no gpt-oss ele é aplicado a cada head na forma de learned bias logit, sem modificar os tokens de entrada

Licença e escopo de abertura

  • Usa a licença open source Apache 2.0, permitindo uso comercial e criação livre de modelos derivados
  • Ainda assim, não é open source no sentido mais estrito (não há abertura do código de treinamento nem dos datasets), sendo um modelo de open weight

Outros detalhes e operação prática

Treinamento/otimização

  • O gpt-oss foi treinado com 2.1M H100-hours de recursos computacionais
  • Foco em inglês, com concentração em STEM, programação e textos de conhecimento geral
  • Aplica técnicas modernas como pré-treinamento + fine-tuning supervisionado (Instruction) e etapa de reasoning baseada em RL

Ajuste de Reasoning Effort

  • É possível definir o reasoning effort (baixo/médio/alto) por meio do system prompt, ajustando automaticamente o comprimento e a precisão das respostas
  • Tarefas simples podem ser executadas rapidamente com esforço baixo, enquanto tarefas complexas podem usar um nível mais alto de reasoning

Suporte a GPU única com quantização MXFP4

  • Com o formato MXFP4, até o 20B pode rodar em 16GB de VRAM (desde que em GPU moderna)
  • O 120B pode ser executado em GPU única com 80GB de memória no padrão H100, sem processamento distribuído e com operação mais simples

Benchmarks e usabilidade real

  • O gpt-oss tem foco de treinamento fortemente voltado a reasoning, e em algumas perguntas de conhecimento geral pode apresentar tendência a alucinação (hallucination)
  • Em termos de usabilidade, está entre os principais modelos abertos atuais, com potencial de maior utilidade prática ao ser combinado com tool integration
  • No uso real, será preciso avaliar melhor o equilíbrio entre precisão e reasoning, além de comparar com outros modelos abertos no futuro

Comparação com o GPT-5

  • O gpt-oss-120b apresenta desempenho próximo ao do modelo comercial da OpenAI (GPT-5) em benchmarks
  • Ainda será preciso observar melhor sua vantagem em ambientes reais, mas ele já se mostra uma alternativa forte entre os LLMs mais recentes com pesos abertos
  • Há limites para explicar totalmente a competitividade prática apenas com benchmarks, mas o modelo abre grandes oportunidades para comparações externas e pesquisa futura

Resumo

  • O surgimento da série gpt-oss estabelece uma nova referência no campo dos grandes LLMs com pesos abertos, com comparação e análise detalhadas de como as arquiteturas inovadoras adotadas pelos LLMs modernos foram implementadas e aplicadas na prática
  • Também permite entender diferenças e tendências em relação a outros modelos recentes, como Qwen3 e GPT-5, sendo útil para acompanhar o estado da arte em aplicação prática e pesquisa

Ainda não há comentários.

Ainda não há comentários.