OpenAI revela os modelos o3 e o4-mini

(openai.com)

5 pontos por GN⁺ 2025-04-17 | 1 comentários | Compartilhar no WhatsApp

Os modelos o3 e o4-mini ampliam significativamente a capacidade de raciocínio do ChatGPT
Além de responder perguntas simples, esses dois modelos também conseguem realizar tarefas complexas, como uso combinado de ferramentas, análise de materiais visuais, geração de imagens e execução de código Python
Em especial, quando o usuário faz uma pergunta, eles têm a capacidade de decidir por conta própria e executar quais ferramentas usar e em que momento
São fortes em resolução de problemas complexos, raciocínio visual e análises em múltiplas etapas, buscando um estilo de conversa mais humano
O o3 é voltado para resolver problemas complexos, e o o4-mini é um modelo para raciocínio rápido e eficiente, buscando ao mesmo tempo alto desempenho e alta eficiência
Contam com capacidade de raciocínio multimodal, pensando com imagens e texto em conjunto, além de uma avançada capacidade de uso de ferramentas em estilo agente

Mudanças principais nos recursos

OpenAI o3

O mais poderoso modelo focado em raciocínio até agora
Alcança desempenho de ponta em várias áreas, como programação, matemática, ciência e análise visual
Registra os melhores resultados em benchmarks como Codeforces, SWE-bench e MMMU
Segundo avaliações de especialistas externos, apresenta 20% menos erros graves do que o o1
Excelente para geração de ideias e avaliação crítica em áreas como programação, consultoria, biologia e engenharia

OpenAI o4-mini

Modelo pequeno otimizado para velocidade e eficiência de custo
Destaca-se especialmente em matemática, programação e resolução de problemas visuais
Melhor desempenho da categoria nos benchmarks AIME 2024 e 2025
Também apresenta ótimo desempenho em áreas fora de STEM em comparação com o o3-mini
Adequado para ambientes que exigem alto volume de uso e respostas rápidas

Ambos os modelos melhoram em compreensão de instruções, utilidade das respostas e confiabilidade em relação aos modelos anteriores
A capacidade de memória de conversa e de oferecer respostas personalizadas também foi reforçada

Recursos multimodais

As imagens podem ser usadas não apenas para reconhecimento simples, mas como parte do raciocínio
Os usuários podem enviar fotos de quadro branco, diagramas de livros, desenhos à mão etc.
Os modelos conseguem reconhecer e analisar até imagens borradas ou distorcidas
Processamentos como rotação, ampliação e transformação de imagem também podem ser executados automaticamente por meio de ferramentas
Foi ampliada a capacidade de resolver problemas complexos combinando informações textuais e visuais

Forma de raciocínio centrada no uso de ferramentas

O o3 e o o4-mini podem acessar todas as ferramentas do ChatGPT
Quando o usuário faz uma pergunta, eles determinam e usam automaticamente as ferramentas necessárias, como busca na web, análise de arquivos e execução de código
Exemplo: ao receber o pedido de “prever o consumo de energia no verão da Califórnia”, conseguem realizar em sequência busca na web → geração de código Python → criação de gráfico
É possível usar informações em tempo real, raciocínio em múltiplas etapas e respostas com integração de modalidades

Desempenho de raciocínio eficiente

Comparação de desempenho por custo

O o3, em relação ao o1, e o o4-mini, em relação ao o3-mini, alcançaram enorme melhoria em eficiência de custo
Com base nos resultados da competição matemática AIME 2025, tanto o o3 quanto o o4-mini são mais baratos e mais inteligentes do que seus antecessores
Espera-se que, em ambientes de uso real, se tornem opções mais inteligentes e mais econômicas

Melhorias de segurança

Foram retreinados com novos dados de treinamento para melhorar a capacidade de recusa diante de ameaças biológicas, malware e prompts de jailbreak
Foi introduzido um sistema de monitoramento de segurança baseado em LLM para detectar automaticamente riscos nas respostas do modelo
Em testes internos, houve sucesso na detecção de mais de 99% das conversas de risco
Em áreas de risco como bio/química, cibersegurança e autoaperfeiçoamento de IA, foram avaliados como abaixo do nível de alto risco
A validação de estabilidade foi concluída de acordo com os critérios mais recentes do Preparedness Framework

Codex CLI: agente avançado de raciocínio para uso no terminal

Ferramenta que permite usar no terminal as capacidades de raciocínio do o3 e do o4-mini
Os usuários podem fornecer diretamente ao modelo, via CLI, código, imagens, capturas de tela etc.
O modelo pode se integrar ao código do ambiente local para realizar raciocínio multimodal
Foi lançado como open source: github.com/openai/codex
A OpenAI também iniciou um programa de apoio de US$ 1 milhão para projetos baseados no Codex CLI

Como acessar

Usuários do ChatGPT Plus, Pro e Team: acesso imediato aos modelos o3, o4-mini e o4-mini-high
Usuários Enterprise e Education: acesso disponível a partir de uma semana depois
Usuários gratuitos também podem usar o o4-mini ao selecionar a opção “Think”
Usuários da API também têm acesso a partir de hoje (pode ser necessária verificação da organização)
Na Responses API, estão previstos vários recursos, como resumo de raciocínio, preservação do raciocínio em torno de chamadas de função e ferramenta de busca na web

Direção futura

Está prevista a fusão entre a capacidade especializada de raciocínio da série o e a capacidade de conversa natural da série GPT
No futuro, devem evoluir para modelos capazes de usar ferramentas de forma proativa enquanto mantêm conversas naturais

1 comentários

GN⁺ 2025-04-17

Comentários do Hacker News

Fizeram uma pergunta técnica sobre engenharia reversa de Final Fantasy VII, mas a IA forneceu informações incorretas
- A IA encontrou informações em fóruns e sites, mas inventou detalhes errados, deixando o resultado impreciso
- A IA parecia saber que não sabia a resposta, mas ainda assim apresentou valores errados com confiança
- A expectativa é que ela seja honesta quando não conseguir encontrar a resposta certa
Usaram o o3 para instalar a versão mais recente do Webstorm no NixOS; ele executou uma VM do NixOS, baixou o pacote e forneceu instruções de instalação
- Parece que até realizou testes de GUI, o que foi muito impressionante
O Claude 3.7 ainda mostra o melhor desempenho no SWE-bench
- É possível que os modelos da OpenAI apresentem desempenho semelhante
O "teste de Turing" simples de escrever um conversor de base 62 em C# foi concluído com sucesso usando o o4-mini-high
Perguntaram a várias IAs a data da lua nova de agosto de 2025, mas a maioria respondeu errado
- O Claude se recusou a responder sobre como bloquear um mecanismo de busca específico
O o3 e o o4 reconhecem quando não têm uma ferramenta de busca na web e se recusam a responder
- O 4o e o 4.1 forneceram informações incorretas
- O novo recurso de busca na web é útil e permite apagar scripts Python desnecessários
O Codex CLI foi disponibilizado como open source
Não houve comparação com o Sonnet 3.7 nem com o Gemini Pro 2.5
O aprendizado por reforço em larga escala tende a melhorar o desempenho quanto mais recursos computacionais usa
- Fica a dúvida sobre por quanto tempo essa tendência vai continuar
Como consumidor, é cansativo acompanhar qual modelo se deve usar

OpenAI revela os modelos o3 e o4-mini

Mudanças principais nos recursos

OpenAI o3

OpenAI o4-mini

Recursos multimodais

Forma de raciocínio centrada no uso de ferramentas

Desempenho de raciocínio eficiente

Comparação de desempenho por custo

Melhorias de segurança

Codex CLI: agente avançado de raciocínio para uso no terminal

Como acessar

Direção futura

Leituras relacionadas

1 comentários

Comentários do Hacker News