31 pontos por haebom 2025-08-06 | 8 comentários | Compartilhar no WhatsApp

A OpenAI lançou de forma surpreendente a série de modelos GPT-OSS (gpt-oss-120b / gpt-oss-20b) sob a licença Apache 2.0. É o primeiro modelo com pesos abertos desde o GPT-2, apresentado 6 anos depois, e tem potencial para mudar o mercado tanto em desempenho quanto em eficiência.

🧠 Principais características

  • Modelo 20B: estrutura Mixture of Experts (MoE)
     • 4 de 128 especialistas são ativados → mantém o desempenho enquanto reduz o custo de inferência
     • Suporte a FlashAttention, 128k tokens e inclui YaRN
  • Modelo 20B: pode rodar até em ambiente com GPU de 16GB (incluindo Apple Silicon)

📊 Principais resultados de benchmark (baseado no GPT-OSS-120B)

  • MMLU: 90.0% (semelhante ao o4-mini)
  • Matemática AIME: 97.9% (nível de elite em matemática + ferramentas)
  • Codeforces Elo: 2622 (também está no topo em programação)
  • HealthBench: desempenho superior ao GPT-4o
  • MMMLU (14 idiomas): 81.3% → forte também em raciocínio multilíngue

💡 Praticidade & ecossistema

  • O modelo 120B pode rodar em uma única GPU H100 80GB
  • O modelo 20B roda em tempo real mesmo em ambiente de 16GB
  • Compatível imediatamente com HuggingFace, vLLM, Ollama etc.

🔐 Segurança & responsabilidade

  • Reforço da consistência de raciocínio com base em RL
  • Introdução de Deliberative Alignment
  • Não gera saídas de alto risco nem em caso de uso malicioso intencional

Pelo menos por enquanto, parece que vai escapar das provocações de “ClosedAI”. Fiz um teste rápido e ele também se sai muito bem em coreano.

https://huggingface.co/openai/gpt-oss-120b

8 comentários

 
yeorinhieut 2025-08-06

Até o modelo 120b tem uma pontuação de 0,168 no simpleqa.

 
jinucho 2025-08-06

Tentei servir com vllm, mas como é baseado em Flash Attention3, só tem suporte para Hopper 😭😭😭😭

 
yeorinhieut 2025-08-06

Eu também, por isso uso o ollama…

 
jinucho 2025-08-06

Uma A100 já totalmente ultrapassada...

 
xguru 2025-08-06

Para comentários relacionados no Hacker News, consulte a postagem OpenAI divulga modelo de linguagem de grande porte com pesos abertos.
Você pode ver várias avaliações sobre o desempenho.

 
argo9 2025-08-06

Quando eu quiser saber que meu computador está lento... acho que seria interessante testar medindo diretamente os segundos com o mesmo prompt. ^^; Também queria deixar aberta pelo menos uma planilha simples no Google Sheets para ir registrando isso (pela pura diversão de manter o histórico)

 
fanotify 2025-08-06

Dizem que, com a quantização MXFP4, ele pode rodar no Ollama até mesmo em sistemas com 16 GB de memória (VRAM) (gpt-oss:20b): https://ollama.com/blog/gpt-oss

 
fanotify 2025-08-06

Quem quiser executar modelos maiores pode usar o ollama turbo, lançado desta vez por US$ 20/mês: https://ollama.com/turbo