A OpenAI lançou de forma surpreendente a série de modelos GPT-OSS (gpt-oss-120b / gpt-oss-20b) sob a licença Apache 2.0. É o primeiro modelo com pesos abertos desde o GPT-2, apresentado 6 anos depois, e tem potencial para mudar o mercado tanto em desempenho quanto em eficiência.
🧠 Principais características
- Modelo 20B: estrutura Mixture of Experts (MoE)
• 4 de 128 especialistas são ativados → mantém o desempenho enquanto reduz o custo de inferência
• Suporte a FlashAttention, 128k tokens e inclui YaRN - Modelo 20B: pode rodar até em ambiente com GPU de 16GB (incluindo Apple Silicon)
📊 Principais resultados de benchmark (baseado no GPT-OSS-120B)
- MMLU: 90.0% (semelhante ao o4-mini)
- Matemática AIME: 97.9% (nível de elite em matemática + ferramentas)
- Codeforces Elo: 2622 (também está no topo em programação)
- HealthBench: desempenho superior ao GPT-4o
- MMMLU (14 idiomas): 81.3% → forte também em raciocínio multilíngue
💡 Praticidade & ecossistema
- O modelo 120B pode rodar em uma única GPU H100 80GB
- O modelo 20B roda em tempo real mesmo em ambiente de 16GB
- Compatível imediatamente com HuggingFace, vLLM, Ollama etc.
🔐 Segurança & responsabilidade
- Reforço da consistência de raciocínio com base em RL
- Introdução de Deliberative Alignment
- Não gera saídas de alto risco nem em caso de uso malicioso intencional
Pelo menos por enquanto, parece que vai escapar das provocações de “ClosedAI”. Fiz um teste rápido e ele também se sai muito bem em coreano.
8 comentários
Até o modelo 120b tem uma pontuação de 0,168 no simpleqa.
Tentei servir com
vllm, mas como é baseado em Flash Attention3, só tem suporte para Hopper 😭😭😭😭Eu também, por isso uso o ollama…
Uma A100 já totalmente ultrapassada...
Para comentários relacionados no Hacker News, consulte a postagem OpenAI divulga modelo de linguagem de grande porte com pesos abertos.
Você pode ver várias avaliações sobre o desempenho.
Quando eu quiser saber que meu computador está lento... acho que seria interessante testar medindo diretamente os segundos com o mesmo prompt. ^^; Também queria deixar aberta pelo menos uma planilha simples no Google Sheets para ir registrando isso (pela pura diversão de manter o histórico)
Dizem que, com a quantização MXFP4, ele pode rodar no Ollama até mesmo em sistemas com 16 GB de memória (VRAM) (
gpt-oss:20b): https://ollama.com/blog/gpt-ossQuem quiser executar modelos maiores pode usar o ollama turbo, lançado desta vez por US$ 20/mês: https://ollama.com/turbo