- A OpenAI tornou público pela primeira vez um modelo de linguagem de pesos abertos (gpt-oss) em larga escala
- Foram disponibilizados dois modelos, gpt-oss-120b e gpt-oss-20b, com destaque para desempenho robusto e suporte a diversos dispositivos
- Com a licença Apache 2.0, é possível utilização comercial, personalização e distribuição livre
- Foram adotados treinamento para segurança, revisão por especialistas externos e um processo de testes de segurança abrangentes
- É possível baixar e usar os modelos diretamente no Hugging Face, GitHub etc., além de recursos de fine-tuning, implantação e personalização, com Playground também disponível
Modelos abertos da OpenAI
- A OpenAI tornou público o gpt-oss, um modelo de inferência de pesos abertos em larga escala que pode ser personalizado para qualquer caso de uso e executado em qualquer lugar
- No Hugging Face e no GitHub é possível fazer download direto dos arquivos do modelo, e também é possível experimentar uma demonstração pelo Playground baseado na web
- Distribuído sob licença Apache 2.0, pode ser usado para fins comerciais, personalização e distribuição livre, sem preocupações com copyleft ou infração de patente
- gpt-oss-120b: modelo de grande porte para datacenter, desktop e notebooks de alto desempenho
- gpt-oss-20b: modelo de porte médio que pode ser executado na maioria dos desktops e notebooks
Principais recursos
-
Otimização para tarefas de agente
- Uso de ferramentas e conformidade com instruções é um ponto forte, e é adequado para usos relacionados a agentes, como busca web e execução de código Python
-
Personalização e fine-tuning
- É possível ajustar hiperparâmetros como
reasoning_effort (esforço de inferência)
- Suporte a fine-tuning de todos os parâmetros para personalização avançada
-
Exposição de cadeia de pensamento (Chain-of-Thought)
- É possível ver todo o processo de raciocínio (cadeia de pensamento) do modelo, facilitando depuração e avaliação de confiabilidade
-
Playground disponível
- Suporte a Playground para que desenvolvedores e pesquisadores possam experimentar o desempenho do modelo no navegador
Desempenho do modelo
- O desempenho de gpt-oss-120b e gpt-oss-20b foi comparado diretamente com os modelos comerciais da OpenAI (OpenAI o3, o4-mini) em vários benchmarks principais
- As pontuações em raciocínio, conhecimento e matemática competitiva, entre outras áreas, foram divulgadas para cada modelo
- Em alguns itens, ficam próximos aos modelos comerciais da OpenAI ou mostram resultados superiores em testes específicos
Detalhamento de desempenho em principais benchmarks
-
Raciocínio e conhecimento
- MMLU (Massive Multitask Language Understanding)
- gpt-oss-120b: 90
- gpt-oss-20b: 85.3
- OpenAI o3: 93.4
- OpenAI o4-mini: 93
- → Embora um pouco abaixo dos grandes modelos comerciais, apresenta desempenho de raciocínio geral muito alto entre modelos abertos
- GPQA Diamond
- gpt-oss-120b: 80.9
- gpt-oss-20b: 74.2
- OpenAI o3: 77
- OpenAI o4-mini: 81.4
- → Mesmo sendo um modelo aberto, alcança desempenho de resposta a perguntas baseada em conhecimento avançado quase semelhante ao dos modelos comerciais
- Humanity's Last Exam
- gpt-oss-120b: 19
- gpt-oss-20b: 17.3
- OpenAI o3: 24.9
- OpenAI o4-mini: 17.7
- → Em avaliações de alta dificuldade, fica abaixo dos modelos comerciais, mas o 20b e o o4-mini têm resultado praticamente igual
-
Matemática competitiva (AIME)
- AIME 2024
- gpt-oss-120b: 96.6
- gpt-oss-20b: 96
- OpenAI o3: 91.6
- OpenAI o4-mini: 93.4
- → Pela versão de 2024, registrou pontuação superior à dos modelos comerciais
- AIME 2025
- gpt-oss-120b: 97.9
- gpt-oss-20b: 98.7
- OpenAI o3: 88.9
- OpenAI o4-mini: 92.7
- → Em matemática, também aparecem números que superam os modelos comerciais da OpenAI
-
Síntese geral
- A série gpt-oss demonstra força de desempenho especialmente em matemática, lógica e conhecimento
- A lacuna em relação aos modelos comerciais não é grande, e a possibilidade de uso em serviços reais ou aplicações de engenharia é alta
- Como modelos abertos de grande escala, são uma opção competitiva para pesquisa e desenvolvimento, agentes e ambientes de personalização
Segurança e testes
- Treinamento e avaliação de segurança rigorosos foram aplicados a todos os modelos
- Em conformidade com o framework de prontidão da OpenAI, a resistência ao fine-tuning malicioso também foi testada separadamente
- Em parceria com especialistas externos de segurança, foram estabelecidos padrões de segurança para modelos abertos
Ainda não há comentários.