7 pontos por GN⁺ 2025-08-06 | 1 comentários | Compartilhar no WhatsApp
  • A OpenAI tornou público pela primeira vez um modelo de linguagem de pesos abertos (gpt-oss) em larga escala
  • Foram disponibilizados dois modelos, gpt-oss-120b e gpt-oss-20b, com destaque para desempenho robusto e suporte a diversos dispositivos
  • Com a licença Apache 2.0, é possível utilização comercial, personalização e distribuição livre
  • Foram adotados treinamento para segurança, revisão por especialistas externos e um processo de testes de segurança abrangentes
  • É possível baixar e usar os modelos diretamente no Hugging Face, GitHub etc., além de recursos de fine-tuning, implantação e personalização, com Playground também disponível

Modelos abertos da OpenAI

  • A OpenAI tornou público o gpt-oss, um modelo de inferência de pesos abertos em larga escala que pode ser personalizado para qualquer caso de uso e executado em qualquer lugar
  • No Hugging Face e no GitHub é possível fazer download direto dos arquivos do modelo, e também é possível experimentar uma demonstração pelo Playground baseado na web
  • Distribuído sob licença Apache 2.0, pode ser usado para fins comerciais, personalização e distribuição livre, sem preocupações com copyleft ou infração de patente
  • gpt-oss-120b: modelo de grande porte para datacenter, desktop e notebooks de alto desempenho
  • gpt-oss-20b: modelo de porte médio que pode ser executado na maioria dos desktops e notebooks

Principais recursos

  • Otimização para tarefas de agente

    • Uso de ferramentas e conformidade com instruções é um ponto forte, e é adequado para usos relacionados a agentes, como busca web e execução de código Python
  • Personalização e fine-tuning

    • É possível ajustar hiperparâmetros como reasoning_effort (esforço de inferência)
    • Suporte a fine-tuning de todos os parâmetros para personalização avançada
  • Exposição de cadeia de pensamento (Chain-of-Thought)

    • É possível ver todo o processo de raciocínio (cadeia de pensamento) do modelo, facilitando depuração e avaliação de confiabilidade
  • Playground disponível

    • Suporte a Playground para que desenvolvedores e pesquisadores possam experimentar o desempenho do modelo no navegador

Desempenho do modelo

  • O desempenho de gpt-oss-120b e gpt-oss-20b foi comparado diretamente com os modelos comerciais da OpenAI (OpenAI o3, o4-mini) em vários benchmarks principais
  • As pontuações em raciocínio, conhecimento e matemática competitiva, entre outras áreas, foram divulgadas para cada modelo
  • Em alguns itens, ficam próximos aos modelos comerciais da OpenAI ou mostram resultados superiores em testes específicos

Detalhamento de desempenho em principais benchmarks

  • Raciocínio e conhecimento

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → Embora um pouco abaixo dos grandes modelos comerciais, apresenta desempenho de raciocínio geral muito alto entre modelos abertos
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → Mesmo sendo um modelo aberto, alcança desempenho de resposta a perguntas baseada em conhecimento avançado quase semelhante ao dos modelos comerciais
    • Humanity's Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → Em avaliações de alta dificuldade, fica abaixo dos modelos comerciais, mas o 20b e o o4-mini têm resultado praticamente igual
  • Matemática competitiva (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • → Pela versão de 2024, registrou pontuação superior à dos modelos comerciais
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • → Em matemática, também aparecem números que superam os modelos comerciais da OpenAI
  • Síntese geral

    • A série gpt-oss demonstra força de desempenho especialmente em matemática, lógica e conhecimento
    • A lacuna em relação aos modelos comerciais não é grande, e a possibilidade de uso em serviços reais ou aplicações de engenharia é alta
    • Como modelos abertos de grande escala, são uma opção competitiva para pesquisa e desenvolvimento, agentes e ambientes de personalização

Segurança e testes

  • Treinamento e avaliação de segurança rigorosos foram aplicados a todos os modelos
  • Em conformidade com o framework de prontidão da OpenAI, a resistência ao fine-tuning malicioso também foi testada separadamente
  • Em parceria com especialistas externos de segurança, foram estabelecidos padrões de segurança para modelos abertos

1 comentários

 
GN⁺ 2025-08-06
Opinião do Hacker News
  • Parece que não foram alcançados os pontos principais
    gpt-oss:20b está entre os 10 melhores no MMLU e fica logo atrás do Gemini-2.5-Pro
    Rodei isso diretamente em um MacBook Air M3 do ano passado
    Estou testando diversos modelos locais no notebook e no Pixel 9 Pro, e pensei que em breve chegaríamos nesse nível, mas já aconteceu hoje
    É possível rodar modelos de ponta no notebook com custo só de eletricidade (quase gratuito)
    Não precisa mais de assinatura mensal de US$ 200 nem de estrutura
    É realmente surpreendente

    • Testei o modelo de 20b em prática, mas não consegui sequer resolver o problema de trocar apenas o rótulo Ele ainda está longe do SOTA e piora do que alguns modelos locais como o QwQ-32b

    • Continuo refletindo quem será o grupo que mais usa IA local
      Pessoas com hardware, mas querendo evitar modelos pagos?
      Ou desenvolvedores sensíveis a preço que querem codar de graça?
      Pessoalmente, os modelos locais não extraem dados de imagem direito e falam muita besteira (no caso do Qwen 2.5 VI)
      Espero que a qualidade de modelos locais/pequenos e o desempenho dos dispositivos continue melhorando
      Sinceramente, estou usando isso no modo “posso fazer, então vou fazer”
      Fico curioso sobre o motivo real de ligar vários Mac Studio ou comprar boas GPUs para fazer isso
      Ferramentas de computação distribuída como o exo têm ideia ótima, mas quero saber o quanto há casos realmente urgentes que exigem ir tão longe

    • Aceitando o paradoxo de Jevons (quando recursos economizados acabam sendo usados ainda mais), aposto que a adoção vai explodir até um agente de geladeira simular autoconsciência e esgotar novamente os recursos

    • Fico curioso sobre quanto se conhece dos modelos open-weight mais recentes
      Depois de mexer por algumas horas, vi que fico bastante abaixo do Qwen3-30B-A3B
      Especialmente a base de conhecimento de mundo ficou claramente aquém

    • Na verdade, o que ‘gasta tudo’ não é inferência, e sim treinamento

  • Para quem curte model card, deixo compartilhado o link do PDF
    Ele compara a arquitetura apresentada com modelos open-weight de ponta como Deepseek, Qwen, GLM e Kimi
    Tecnicamente, a sensação é de “aham, entendi”

    • Ambos os modelos usam a estrutura general Grouped-Query Attention (64 cabeças de query, 8 cabeças KV)
      Aplicam em alternância a otimização antiga do GPT-3 (sparsity de janela "banded", 128 tokens) com padrão de dense attention
      Usa janela de contexto de 131K com a combinação RoPE + YaRN
      Não foram aplicados avanços de GQA como Multi-head Latent Attention da Deepseek e outros
    • Ambos os modelos são MoE Transformers
      O modelo 120B (exatamente 116,8B, 5,1B ativos) opera 128 experts com top-4 routing
      O Gated SwiGLU activation é destacado, mas arquitetura shared/routed expert da Deepseek, estratégia de balanceamento de carga da Qwen etc. ficaram de fora
    • O ponto mais interessante é o esquema de quantização
      Mais de 90% de todos os parâmetros foram quantizados em 4,25 bits/param (formato MXFP4), permitindo carregar o modelo 120B em uma única GPU de 80GB
      Ainda assim, a Unsloth já já implementou quantização de 1,58 bits
      No geral, o treino para comportamento de agente e raciocínio é claramente forte, mas o avanço técnico parece algo “ainda guardado nos bastidores”
    • Minha aposta é que a fonte escondida aqui seja, talvez, distilação
      Pesquisas já mostraram que usar datasets sintéticos de alta qualidade gerados por outputs de prompt de modelos SOTA como o o3 para pré-treinamento, em vez de dados da internet, maximiza o desempenho de modelos pequenos
      Isso é bem mais eficiente do que pós-processar RL em modelos pequenos (modelos pequenos têm baseline baixa, então RL é ineficiente)

    • A OpenAI também pode ser vista como tendo avanço técnico real fora da estrutura de attention
      Na arquitetura, parece que eles querem passar a mensagem de “não tem fonte secreta, vocês não treinaram bem mid/post” ou ao menos fazer você acreditar nisso
      O modelo tem esparsidade alta, de 32:1

    • Eu vejo o release do MXFP4 como uma espécie de presente
      É fruto da grande otimização de custo deles, então é vantagem para o ecossistema open source
      A quantização de 1,58 bits da Unsloth também é impressionante, mas a perda em relação à quantização completa é clara, então para a maioria dos usos de LLM a precisão continua em primeiro lugar
      Quase não existem empresas rodando modelo frontier em produção com reduced quant
      Se a OpenAI aplicar isso em prod, será uma iniciativa bem interessante

    • Uma análise parecida também é possível no repo do github

    • Também é aplicado o attention sink (foco de atenção em tokens especiais)
      Porém, é implementado como logit de treinamento adicional para a atenção softmax, em vez de token separado

  • Um resumo inicial das impressões, feito em algumas horas, link da review detalhada
    TLDR: parece que a OpenAI recuperou o título de melhor modelo open-weight dos AI labs chineses
    Aguardo para ver como benchmarks independentes vão sair
    O modelo 20B roda com menos de 15GB de RAM em Mac notebook

    • Fiz um dashboard em Streamlit com indicadores MACD, RSI e MA(200).
      O qwen3-coder-30b 4bit mlx processa até dados recentes muito bem e gerou um dashboard funcionando perfeitamente
      O gpt-oss-20b mxfp4 vinha sem import de datetime e, mesmo corrigindo, parava a data de início em agosto de 2020 sem dados
      Mesmo após ajustar a data, seguia erro na função de atualização

    • Usando modelo no MacBook, a janela de contexto ficou muito curta demais, o que prejudica a usabilidade, e fiquei curioso sobre como isso foi resolvido

    • Estou curioso sobre como a função de tool calling se comporta
      Mesmo rodando por horas, não funcionou bem
      Ainda é um modelo com potencial

    • Como o modelo de 20B usa menos de 15GB de RAM, também vou testá-lo logo em seguida
      Tenho curiosidade sobre TPS (tokens gerados por segundo) e dados de processador

  • Entramos na era de rodar modelo nível o3 em um Mac Mini de 24GB
    Poucos meses atrás, parecia tarefa para daqui a 5 anos rodar modelos tão novos localmente ou no mobile, mas parece que na próxima geração de celular isso já vai ser viável

    • Mesmo com limitação forte de hardware, modelos como Qwen mostram desempenho considerável
      Ansioso para ver resultados de benchmark sobre como novos modelos open source serão comparados

    • Lembro da polêmica de segurança quando o Llama foi aberto
      Agora dá para rodar um modelo frontier de 120B parâmetros em MacBook com 96GB (V)RAM
      Quando chegar quantização em MLX, estou animado para comparar com GLM-4.5-air

    • Honestamente, eu esperava muito desse modelo, mas nos resultados da localllama
      o modelo 120B ficou abaixo de qwen 3 coder, glm45 air e grok 3 no aspecto de coding
      discussão no reddit

    • Ao rodar modelo (quantized) de tamanho médio no Mac Mini na prática
      fico curioso se a resposta fica em 5 tokens/s ou se está em nível realmente utilizável

    • Fico curioso qual é hoje a forma mais fácil de fazer modelos locais também navegarem na web

  • Acredito que, no longo prazo, os modelos open vão vencer
    A Anthropic também faz pesquisa com modelo OSS, e a China evolui rapidamente modelos open-model em iteração
    Também espero que o lado americano continue a abrir como open-weight modelos N-1 por 1 a 3 gerações
    Abrir modelos da geração mais recente como OSS ainda sai caro demais
    Sem apoio governamental ou inovação de energia do Stargate, há limite
    Como modelos N-1 desvalorizam muito rápido, fazer release em OSS e absorver casos de uso e aplicações especializadas é valioso no longo prazo
    Mesmo correndo risco de perda de market share etc., consolidando resultados de pesquisa públicos há chance de acelerar bastante o desenvolvimento da próxima geração
    Daqui para frente, virão imensas quantidades de modelos OSS pequenos
    Com foco em releases de OSS, devem surgir em escala local modelos especializados que rodem bem em dispositivos pequenos
    Em um futuro orientado a agentes, surgirão inúmeros modelos especializados e destilados por domínio
    Todos correm para AGI/SGI, e nesse processo os modelos são etapas intermediárias para ganhar market share e uso de dados
    Quando AGI/SGI se concretizar, o valor real estará em inovação em ciência, engenharia e em todas as áreas
    A pesquisa da Anthropic usa modelos OSS como Qwen e Llama

    • A Anthropic não precisa necessariamente testar só com open models
      Basta deixar os resultados em OSS para que pesquisadores subsequentes possam reproduzir

    • A frase “open models vão vencer” tem pressupostos
      A própria definição de vitória já é complicada
      Caso contrário,

      • OSS pode acelerar a velocidade dos concorrentes
      • OSS pode não ajudar em nada no próprio R&D
      • OSS pode disparar desperdício global de recursos por uma corrida mundial de "novos produtos"
      • OSS pode prejudicar o modelo de negócios das empresas
      • Riscos de abuso (deepfake, segurança, bioterrorismo, AGI fora de controle etc.)
        veja: What failure looks like, AGI Manhattan Project? artigo de Max Tegmark
    • Parece que a indústria está indo para um caminho de acoplar ferramentas, banco de dados e processos sobre um foundation model sólido
      Nesse sentido, modelos OSS podem agarrar mercado
      Mas não sei que valor real surge ao treinar e gerenciar separadamente tantos modelos especializados

    • A chegada a AGI/SGI não deve ser uma etapa única de “chegada”
      A performance só melhora de forma incremental
      O custo de inferência precisa ficar barato o bastante para viabilizar uso real
      Se o objetivo é lucro ou inovação, fico curioso em qual direção ir
      Casos como Isomorphic Labs já apontam isso (já existe, com equipe concentrada ali)

    • Se os open models forem realmente os vencedores de longo prazo, para uma frontier lab sobra a pergunta de como e com que pressa e grau de segredo fazer abertura em OSS
      Motivações de operação, execução e investimento são diferentes, e divergem da direção de país e da humanidade

  • Em Python, a inferência de modelos usa harmony[1] implementado em Rust, a tokenização usa tiktoken[2] e o Codex[3] também é escrito em Rust
    A OpenAI vem aumentando o uso de Rust no pipeline de inferência
    harmony, tiktoken, codex

    • Para uma engenheira(o) que usa Rust como principal linguagem, essa tendência é muito bem-vinda

    • É positivo ver Python diminuindo na stack

  • Isso quer dizer que em alguns dias sairia o melhor modelo?
    Do ponto de vista estratégico, abrir isso já é um sinal de que virá algo ainda mais inovador

    • Mesmo sem anúncio imediato, é uma estratégia inteligente
      Porque a pressão de modelos open-weight de alto desempenho como Qwen é grande
      Se não tiver, pode-se ficar para trás no campo inteiro
      Existe também grande oportunidade futura em licença, suporte técnico, agente, reconhecimento de marca, market share
      Quanto melhor usarmos esses modelos, mais fácil será achar a OpenAI em modelos maiores

    • Previsão de abertura na quinta-feira
      Aposta sobre a data de lançamento do GPT-5

    • GPT-5 aberto nesta quinta

    • Sem abertura, o valor dos produtos pagos antigos cai
      Mas acho que a abertura de OSS atrasada ainda não foi um risco tão grande para prejudicar produtos comerciais

    • Há cerca de uma semana já havia sinais de que o GPT-5 é iminente

  • Ver um modelo de 20B com desempenho perto de o3 já é outro mundo
    Há um ano, eu achava impossível que um modelo tão pequeno tivesse essa inteligência
    O que me empolga ainda mais, pessoalmente, é destilar um modelo de cem bilhões de parâmetros em alguns bilhões e transferir a ‘mágica’ com pouca perda
    Se imaginar colocar inteligência em nível Claude 4 Opus num modelo de 10B e rodar localmente a 2.000 tokens/s, a forma de desenvolver software mudaria completamente

    • Na verdade, não é 20B, porque é MoE com 3,6B de parâmetros ativos
      A performance também não é realmente de nível o3
      Métricas sempre têm gap da realidade, então é preciso testar diretamente para validar qualidade

    • 10B x 2.000 t/s exigem 20.000 GB/s de banda de memória
      O hardware da Apple limita em torno de 1.000 GB/s

  • Em um assunto diferente, mas acho o Ollama realmente incrível
    Buscar modelo em 2 segundos, baixar em 1 minuto e já usar
    Kudos para o time!

    • O Ollama foi de fato desenvolvido previamente com suporte da OpenAI
      Veja no blog oficial da Ollama

    • O LM Studio é igualmente simples
      O principal é que, no caso do llama.cpp e na distribuição, o lado do HuggingFace faz tudo

    • Já vi notícia de que o Ollama está migrando para closed source
      discussão relacionada no reddit

  • Consegui integrar com sucesso gpt-oss:20b ao claude code com um proxy leve e o Ollama
    É interessante, mas o prefill ficou lento demais para ficar realmente utilizável
    Cada uso de ferramenta leva 2~3 minutos; 10~20 chamadas somam 30~60 minutos
    No server.py (1.000 linhas), há cerca de 30k tokens entre definição de tools + contexto do claude, e ao ler arquivo de entrada sobe para 50k
    Há espaço claro para otimização
    Não sei se o Ollama suporta kv-cache entre chamadas /v1/completions; se suportar, ajudaria bastante na velocidade

    • Não conheço bem o Ollama, mas o llama-server tem transparent kv cache
      Rode assim:
      llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
      
      A Web UI é localhost:8080 (fornece API compatível com OpenAI)