- A OpenAI tornou público pela primeira vez um modelo de linguagem de pesos abertos (gpt-oss) em larga escala
- Foram disponibilizados dois modelos, gpt-oss-120b e gpt-oss-20b, com destaque para desempenho robusto e suporte a diversos dispositivos
- Com a licença Apache 2.0, é possível utilização comercial, personalização e distribuição livre
- Foram adotados treinamento para segurança, revisão por especialistas externos e um processo de testes de segurança abrangentes
- É possível baixar e usar os modelos diretamente no Hugging Face, GitHub etc., além de recursos de fine-tuning, implantação e personalização, com Playground também disponível
Modelos abertos da OpenAI
- A OpenAI tornou público o gpt-oss, um modelo de inferência de pesos abertos em larga escala que pode ser personalizado para qualquer caso de uso e executado em qualquer lugar
- No Hugging Face e no GitHub é possível fazer download direto dos arquivos do modelo, e também é possível experimentar uma demonstração pelo Playground baseado na web
- Distribuído sob licença Apache 2.0, pode ser usado para fins comerciais, personalização e distribuição livre, sem preocupações com copyleft ou infração de patente
- gpt-oss-120b: modelo de grande porte para datacenter, desktop e notebooks de alto desempenho
- gpt-oss-20b: modelo de porte médio que pode ser executado na maioria dos desktops e notebooks
Principais recursos
-
Otimização para tarefas de agente
- Uso de ferramentas e conformidade com instruções é um ponto forte, e é adequado para usos relacionados a agentes, como busca web e execução de código Python
-
Personalização e fine-tuning
- É possível ajustar hiperparâmetros como
reasoning_effort(esforço de inferência) - Suporte a fine-tuning de todos os parâmetros para personalização avançada
- É possível ajustar hiperparâmetros como
-
Exposição de cadeia de pensamento (Chain-of-Thought)
- É possível ver todo o processo de raciocínio (cadeia de pensamento) do modelo, facilitando depuração e avaliação de confiabilidade
-
Playground disponível
- Suporte a Playground para que desenvolvedores e pesquisadores possam experimentar o desempenho do modelo no navegador
Desempenho do modelo
- O desempenho de gpt-oss-120b e gpt-oss-20b foi comparado diretamente com os modelos comerciais da OpenAI (OpenAI o3, o4-mini) em vários benchmarks principais
- As pontuações em raciocínio, conhecimento e matemática competitiva, entre outras áreas, foram divulgadas para cada modelo
- Em alguns itens, ficam próximos aos modelos comerciais da OpenAI ou mostram resultados superiores em testes específicos
Detalhamento de desempenho em principais benchmarks
-
Raciocínio e conhecimento
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Embora um pouco abaixo dos grandes modelos comerciais, apresenta desempenho de raciocínio geral muito alto entre modelos abertos
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Mesmo sendo um modelo aberto, alcança desempenho de resposta a perguntas baseada em conhecimento avançado quase semelhante ao dos modelos comerciais
- Humanity's Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Em avaliações de alta dificuldade, fica abaixo dos modelos comerciais, mas o 20b e o o4-mini têm resultado praticamente igual
- MMLU (Massive Multitask Language Understanding)
-
Matemática competitiva (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Pela versão de 2024, registrou pontuação superior à dos modelos comerciais
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Em matemática, também aparecem números que superam os modelos comerciais da OpenAI
- AIME 2024
-
Síntese geral
- A série gpt-oss demonstra força de desempenho especialmente em matemática, lógica e conhecimento
- A lacuna em relação aos modelos comerciais não é grande, e a possibilidade de uso em serviços reais ou aplicações de engenharia é alta
- Como modelos abertos de grande escala, são uma opção competitiva para pesquisa e desenvolvimento, agentes e ambientes de personalização
Segurança e testes
- Treinamento e avaliação de segurança rigorosos foram aplicados a todos os modelos
- Em conformidade com o framework de prontidão da OpenAI, a resistência ao fine-tuning malicioso também foi testada separadamente
- Em parceria com especialistas externos de segurança, foram estabelecidos padrões de segurança para modelos abertos
- É possível fazer download e usar os modelos no Hugging Face e no GitHub
1 comentários
Opinião do Hacker News
Parece que não foram alcançados os pontos principais
gpt-oss:20b está entre os 10 melhores no MMLU e fica logo atrás do Gemini-2.5-Pro
Rodei isso diretamente em um MacBook Air M3 do ano passado
Estou testando diversos modelos locais no notebook e no Pixel 9 Pro, e pensei que em breve chegaríamos nesse nível, mas já aconteceu hoje
É possível rodar modelos de ponta no notebook com custo só de eletricidade (quase gratuito)
Não precisa mais de assinatura mensal de US$ 200 nem de estrutura
É realmente surpreendente
Testei o modelo de 20b em prática, mas não consegui sequer resolver o problema de trocar apenas o rótulo Ele ainda está longe do SOTA e piora do que alguns modelos locais como o QwQ-32b
Continuo refletindo quem será o grupo que mais usa IA local
Pessoas com hardware, mas querendo evitar modelos pagos?
Ou desenvolvedores sensíveis a preço que querem codar de graça?
Pessoalmente, os modelos locais não extraem dados de imagem direito e falam muita besteira (no caso do Qwen 2.5 VI)
Espero que a qualidade de modelos locais/pequenos e o desempenho dos dispositivos continue melhorando
Sinceramente, estou usando isso no modo “posso fazer, então vou fazer”
Fico curioso sobre o motivo real de ligar vários Mac Studio ou comprar boas GPUs para fazer isso
Ferramentas de computação distribuída como o exo têm ideia ótima, mas quero saber o quanto há casos realmente urgentes que exigem ir tão longe
Aceitando o paradoxo de Jevons (quando recursos economizados acabam sendo usados ainda mais), aposto que a adoção vai explodir até um agente de geladeira simular autoconsciência e esgotar novamente os recursos
Fico curioso sobre quanto se conhece dos modelos open-weight mais recentes
Depois de mexer por algumas horas, vi que fico bastante abaixo do Qwen3-30B-A3B
Especialmente a base de conhecimento de mundo ficou claramente aquém
Na verdade, o que ‘gasta tudo’ não é inferência, e sim treinamento
Para quem curte model card, deixo compartilhado o link do PDF
Ele compara a arquitetura apresentada com modelos open-weight de ponta como Deepseek, Qwen, GLM e Kimi
Tecnicamente, a sensação é de “aham, entendi”
Aplicam em alternância a otimização antiga do GPT-3 (sparsity de janela "banded", 128 tokens) com padrão de dense attention
Usa janela de contexto de 131K com a combinação RoPE + YaRN
Não foram aplicados avanços de GQA como Multi-head Latent Attention da Deepseek e outros
O modelo 120B (exatamente 116,8B, 5,1B ativos) opera 128 experts com top-4 routing
O Gated SwiGLU activation é destacado, mas arquitetura shared/routed expert da Deepseek, estratégia de balanceamento de carga da Qwen etc. ficaram de fora
Mais de 90% de todos os parâmetros foram quantizados em 4,25 bits/param (formato MXFP4), permitindo carregar o modelo 120B em uma única GPU de 80GB
Ainda assim, a Unsloth já já implementou quantização de 1,58 bits
No geral, o treino para comportamento de agente e raciocínio é claramente forte, mas o avanço técnico parece algo “ainda guardado nos bastidores”
Minha aposta é que a fonte escondida aqui seja, talvez, distilação
Pesquisas já mostraram que usar datasets sintéticos de alta qualidade gerados por outputs de prompt de modelos SOTA como o o3 para pré-treinamento, em vez de dados da internet, maximiza o desempenho de modelos pequenos
Isso é bem mais eficiente do que pós-processar RL em modelos pequenos (modelos pequenos têm baseline baixa, então RL é ineficiente)
A OpenAI também pode ser vista como tendo avanço técnico real fora da estrutura de attention
Na arquitetura, parece que eles querem passar a mensagem de “não tem fonte secreta, vocês não treinaram bem mid/post” ou ao menos fazer você acreditar nisso
O modelo tem esparsidade alta, de 32:1
Eu vejo o release do MXFP4 como uma espécie de presente
É fruto da grande otimização de custo deles, então é vantagem para o ecossistema open source
A quantização de 1,58 bits da Unsloth também é impressionante, mas a perda em relação à quantização completa é clara, então para a maioria dos usos de LLM a precisão continua em primeiro lugar
Quase não existem empresas rodando modelo frontier em produção com reduced quant
Se a OpenAI aplicar isso em prod, será uma iniciativa bem interessante
Uma análise parecida também é possível no repo do github
Também é aplicado o attention sink (foco de atenção em tokens especiais)
Porém, é implementado como logit de treinamento adicional para a atenção softmax, em vez de token separado
Um resumo inicial das impressões, feito em algumas horas, link da review detalhada
TLDR: parece que a OpenAI recuperou o título de melhor modelo open-weight dos AI labs chineses
Aguardo para ver como benchmarks independentes vão sair
O modelo 20B roda com menos de 15GB de RAM em Mac notebook
Fiz um dashboard em Streamlit com indicadores MACD, RSI e MA(200).
O qwen3-coder-30b 4bit mlx processa até dados recentes muito bem e gerou um dashboard funcionando perfeitamente
O gpt-oss-20b mxfp4 vinha sem import de datetime e, mesmo corrigindo, parava a data de início em agosto de 2020 sem dados
Mesmo após ajustar a data, seguia erro na função de atualização
Usando modelo no MacBook, a janela de contexto ficou muito curta demais, o que prejudica a usabilidade, e fiquei curioso sobre como isso foi resolvido
Estou curioso sobre como a função de tool calling se comporta
Mesmo rodando por horas, não funcionou bem
Ainda é um modelo com potencial
Como o modelo de 20B usa menos de 15GB de RAM, também vou testá-lo logo em seguida
Tenho curiosidade sobre TPS (tokens gerados por segundo) e dados de processador
Entramos na era de rodar modelo nível o3 em um Mac Mini de 24GB
Poucos meses atrás, parecia tarefa para daqui a 5 anos rodar modelos tão novos localmente ou no mobile, mas parece que na próxima geração de celular isso já vai ser viável
Mesmo com limitação forte de hardware, modelos como Qwen mostram desempenho considerável
Ansioso para ver resultados de benchmark sobre como novos modelos open source serão comparados
Lembro da polêmica de segurança quando o Llama foi aberto
Agora dá para rodar um modelo frontier de 120B parâmetros em MacBook com 96GB (V)RAM
Quando chegar quantização em MLX, estou animado para comparar com GLM-4.5-air
Honestamente, eu esperava muito desse modelo, mas nos resultados da localllama
o modelo 120B ficou abaixo de qwen 3 coder, glm45 air e grok 3 no aspecto de coding
discussão no reddit
Ao rodar modelo (quantized) de tamanho médio no Mac Mini na prática
fico curioso se a resposta fica em 5 tokens/s ou se está em nível realmente utilizável
Fico curioso qual é hoje a forma mais fácil de fazer modelos locais também navegarem na web
Acredito que, no longo prazo, os modelos open vão vencer
A Anthropic também faz pesquisa com modelo OSS, e a China evolui rapidamente modelos open-model em iteração
Também espero que o lado americano continue a abrir como open-weight modelos N-1 por 1 a 3 gerações
Abrir modelos da geração mais recente como OSS ainda sai caro demais
Sem apoio governamental ou inovação de energia do Stargate, há limite
Como modelos N-1 desvalorizam muito rápido, fazer release em OSS e absorver casos de uso e aplicações especializadas é valioso no longo prazo
Mesmo correndo risco de perda de market share etc., consolidando resultados de pesquisa públicos há chance de acelerar bastante o desenvolvimento da próxima geração
Daqui para frente, virão imensas quantidades de modelos OSS pequenos
Com foco em releases de OSS, devem surgir em escala local modelos especializados que rodem bem em dispositivos pequenos
Em um futuro orientado a agentes, surgirão inúmeros modelos especializados e destilados por domínio
Todos correm para AGI/SGI, e nesse processo os modelos são etapas intermediárias para ganhar market share e uso de dados
Quando AGI/SGI se concretizar, o valor real estará em inovação em ciência, engenharia e em todas as áreas
A pesquisa da Anthropic usa modelos OSS como Qwen e Llama
A Anthropic não precisa necessariamente testar só com open models
Basta deixar os resultados em OSS para que pesquisadores subsequentes possam reproduzir
A frase “open models vão vencer” tem pressupostos
A própria definição de vitória já é complicada
Caso contrário,
veja: What failure looks like, AGI Manhattan Project? artigo de Max Tegmark
Parece que a indústria está indo para um caminho de acoplar ferramentas, banco de dados e processos sobre um foundation model sólido
Nesse sentido, modelos OSS podem agarrar mercado
Mas não sei que valor real surge ao treinar e gerenciar separadamente tantos modelos especializados
A chegada a AGI/SGI não deve ser uma etapa única de “chegada”
A performance só melhora de forma incremental
O custo de inferência precisa ficar barato o bastante para viabilizar uso real
Se o objetivo é lucro ou inovação, fico curioso em qual direção ir
Casos como Isomorphic Labs já apontam isso (já existe, com equipe concentrada ali)
Se os open models forem realmente os vencedores de longo prazo, para uma frontier lab sobra a pergunta de como e com que pressa e grau de segredo fazer abertura em OSS
Motivações de operação, execução e investimento são diferentes, e divergem da direção de país e da humanidade
Em Python, a inferência de modelos usa harmony[1] implementado em Rust, a tokenização usa tiktoken[2] e o Codex[3] também é escrito em Rust
A OpenAI vem aumentando o uso de Rust no pipeline de inferência
harmony, tiktoken, codex
Para uma engenheira(o) que usa Rust como principal linguagem, essa tendência é muito bem-vinda
É positivo ver Python diminuindo na stack
Isso quer dizer que em alguns dias sairia o melhor modelo?
Do ponto de vista estratégico, abrir isso já é um sinal de que virá algo ainda mais inovador
Mesmo sem anúncio imediato, é uma estratégia inteligente
Porque a pressão de modelos open-weight de alto desempenho como Qwen é grande
Se não tiver, pode-se ficar para trás no campo inteiro
Existe também grande oportunidade futura em licença, suporte técnico, agente, reconhecimento de marca, market share
Quanto melhor usarmos esses modelos, mais fácil será achar a OpenAI em modelos maiores
Previsão de abertura na quinta-feira
Aposta sobre a data de lançamento do GPT-5
GPT-5 aberto nesta quinta
Sem abertura, o valor dos produtos pagos antigos cai
Mas acho que a abertura de OSS atrasada ainda não foi um risco tão grande para prejudicar produtos comerciais
Há cerca de uma semana já havia sinais de que o GPT-5 é iminente
Ver um modelo de 20B com desempenho perto de o3 já é outro mundo
Há um ano, eu achava impossível que um modelo tão pequeno tivesse essa inteligência
O que me empolga ainda mais, pessoalmente, é destilar um modelo de cem bilhões de parâmetros em alguns bilhões e transferir a ‘mágica’ com pouca perda
Se imaginar colocar inteligência em nível Claude 4 Opus num modelo de 10B e rodar localmente a 2.000 tokens/s, a forma de desenvolver software mudaria completamente
Na verdade, não é 20B, porque é MoE com 3,6B de parâmetros ativos
A performance também não é realmente de nível o3
Métricas sempre têm gap da realidade, então é preciso testar diretamente para validar qualidade
10B x 2.000 t/s exigem 20.000 GB/s de banda de memória
O hardware da Apple limita em torno de 1.000 GB/s
Em um assunto diferente, mas acho o Ollama realmente incrível
Buscar modelo em 2 segundos, baixar em 1 minuto e já usar
Kudos para o time!
O Ollama foi de fato desenvolvido previamente com suporte da OpenAI
Veja no blog oficial da Ollama
O LM Studio é igualmente simples
O principal é que, no caso do llama.cpp e na distribuição, o lado do HuggingFace faz tudo
Já vi notícia de que o Ollama está migrando para closed source
discussão relacionada no reddit
Consegui integrar com sucesso gpt-oss:20b ao claude code com um proxy leve e o Ollama
É interessante, mas o prefill ficou lento demais para ficar realmente utilizável
Cada uso de ferramenta leva 2~3 minutos; 10~20 chamadas somam 30~60 minutos
No server.py (1.000 linhas), há cerca de 30k tokens entre definição de tools + contexto do claude, e ao ler arquivo de entrada sobe para 50k
Há espaço claro para otimização
Não sei se o Ollama suporta kv-cache entre chamadas /v1/completions; se suportar, ajudaria bastante na velocidade
Rode assim: A Web UI é localhost:8080 (fornece API compatível com OpenAI)