- Os modelos o3 e o4-mini ampliam significativamente a capacidade de raciocínio do ChatGPT
- Além de responder perguntas simples, esses dois modelos também conseguem realizar tarefas complexas, como uso combinado de ferramentas, análise de materiais visuais, geração de imagens e execução de código Python
- Em especial, quando o usuário faz uma pergunta, eles têm a capacidade de decidir por conta própria e executar quais ferramentas usar e em que momento
- São fortes em resolução de problemas complexos, raciocínio visual e análises em múltiplas etapas, buscando um estilo de conversa mais humano
- O o3 é voltado para resolver problemas complexos, e o o4-mini é um modelo para raciocínio rápido e eficiente, buscando ao mesmo tempo alto desempenho e alta eficiência
- Contam com capacidade de raciocínio multimodal, pensando com imagens e texto em conjunto, além de uma avançada capacidade de uso de ferramentas em estilo agente
Mudanças principais nos recursos
OpenAI o3
- O mais poderoso modelo focado em raciocínio até agora
- Alcança desempenho de ponta em várias áreas, como programação, matemática, ciência e análise visual
- Registra os melhores resultados em benchmarks como Codeforces, SWE-bench e MMMU
- Segundo avaliações de especialistas externos, apresenta 20% menos erros graves do que o o1
- Excelente para geração de ideias e avaliação crítica em áreas como programação, consultoria, biologia e engenharia
OpenAI o4-mini
- Modelo pequeno otimizado para velocidade e eficiência de custo
- Destaca-se especialmente em matemática, programação e resolução de problemas visuais
- Melhor desempenho da categoria nos benchmarks AIME 2024 e 2025
- Também apresenta ótimo desempenho em áreas fora de STEM em comparação com o o3-mini
- Adequado para ambientes que exigem alto volume de uso e respostas rápidas
- Ambos os modelos melhoram em compreensão de instruções, utilidade das respostas e confiabilidade em relação aos modelos anteriores
- A capacidade de memória de conversa e de oferecer respostas personalizadas também foi reforçada
Recursos multimodais
- As imagens podem ser usadas não apenas para reconhecimento simples, mas como parte do raciocínio
- Os usuários podem enviar fotos de quadro branco, diagramas de livros, desenhos à mão etc.
- Os modelos conseguem reconhecer e analisar até imagens borradas ou distorcidas
- Processamentos como rotação, ampliação e transformação de imagem também podem ser executados automaticamente por meio de ferramentas
- Foi ampliada a capacidade de resolver problemas complexos combinando informações textuais e visuais
Forma de raciocínio centrada no uso de ferramentas
- O o3 e o o4-mini podem acessar todas as ferramentas do ChatGPT
- Quando o usuário faz uma pergunta, eles determinam e usam automaticamente as ferramentas necessárias, como busca na web, análise de arquivos e execução de código
- Exemplo: ao receber o pedido de “prever o consumo de energia no verão da Califórnia”, conseguem realizar em sequência busca na web → geração de código Python → criação de gráfico
- É possível usar informações em tempo real, raciocínio em múltiplas etapas e respostas com integração de modalidades
Desempenho de raciocínio eficiente
Comparação de desempenho por custo
- O o3, em relação ao o1, e o o4-mini, em relação ao o3-mini, alcançaram enorme melhoria em eficiência de custo
- Com base nos resultados da competição matemática AIME 2025, tanto o o3 quanto o o4-mini são mais baratos e mais inteligentes do que seus antecessores
- Espera-se que, em ambientes de uso real, se tornem opções mais inteligentes e mais econômicas
Melhorias de segurança
- Foram retreinados com novos dados de treinamento para melhorar a capacidade de recusa diante de ameaças biológicas, malware e prompts de jailbreak
- Foi introduzido um sistema de monitoramento de segurança baseado em LLM para detectar automaticamente riscos nas respostas do modelo
- Em testes internos, houve sucesso na detecção de mais de 99% das conversas de risco
- Em áreas de risco como bio/química, cibersegurança e autoaperfeiçoamento de IA, foram avaliados como abaixo do nível de alto risco
- A validação de estabilidade foi concluída de acordo com os critérios mais recentes do Preparedness Framework
Codex CLI: agente avançado de raciocínio para uso no terminal
- Ferramenta que permite usar no terminal as capacidades de raciocínio do o3 e do o4-mini
- Os usuários podem fornecer diretamente ao modelo, via CLI, código, imagens, capturas de tela etc.
- O modelo pode se integrar ao código do ambiente local para realizar raciocínio multimodal
- Foi lançado como open source: github.com/openai/codex
- A OpenAI também iniciou um programa de apoio de US$ 1 milhão para projetos baseados no Codex CLI
Como acessar
- Usuários do ChatGPT Plus, Pro e Team: acesso imediato aos modelos o3, o4-mini e o4-mini-high
- Usuários Enterprise e Education: acesso disponível a partir de uma semana depois
- Usuários gratuitos também podem usar o o4-mini ao selecionar a opção “Think”
- Usuários da API também têm acesso a partir de hoje (pode ser necessária verificação da organização)
- Na Responses API, estão previstos vários recursos, como resumo de raciocínio, preservação do raciocínio em torno de chamadas de função e ferramenta de busca na web
Direção futura
- Está prevista a fusão entre a capacidade especializada de raciocínio da série o e a capacidade de conversa natural da série GPT
- No futuro, devem evoluir para modelos capazes de usar ferramentas de forma proativa enquanto mantêm conversas naturais
1 comentários
Comentários do Hacker News
Fizeram uma pergunta técnica sobre engenharia reversa de Final Fantasy VII, mas a IA forneceu informações incorretas
Usaram o o3 para instalar a versão mais recente do Webstorm no NixOS; ele executou uma VM do NixOS, baixou o pacote e forneceu instruções de instalação
O Claude 3.7 ainda mostra o melhor desempenho no SWE-bench
O "teste de Turing" simples de escrever um conversor de base 62 em C# foi concluído com sucesso usando o o4-mini-high
Perguntaram a várias IAs a data da lua nova de agosto de 2025, mas a maioria respondeu errado
O o3 e o o4 reconhecem quando não têm uma ferramenta de busca na web e se recusam a responder
O Codex CLI foi disponibilizado como open source
Não houve comparação com o Sonnet 3.7 nem com o Gemini Pro 2.5
O aprendizado por reforço em larga escala tende a melhorar o desempenho quanto mais recursos computacionais usa
Como consumidor, é cansativo acompanhar qual modelo se deve usar