5 pontos por GN⁺ 2025-04-17 | 1 comentários | Compartilhar no WhatsApp
  • Os modelos o3 e o4-mini ampliam significativamente a capacidade de raciocínio do ChatGPT
  • Além de responder perguntas simples, esses dois modelos também conseguem realizar tarefas complexas, como uso combinado de ferramentas, análise de materiais visuais, geração de imagens e execução de código Python
  • Em especial, quando o usuário faz uma pergunta, eles têm a capacidade de decidir por conta própria e executar quais ferramentas usar e em que momento
  • São fortes em resolução de problemas complexos, raciocínio visual e análises em múltiplas etapas, buscando um estilo de conversa mais humano
  • O o3 é voltado para resolver problemas complexos, e o o4-mini é um modelo para raciocínio rápido e eficiente, buscando ao mesmo tempo alto desempenho e alta eficiência
  • Contam com capacidade de raciocínio multimodal, pensando com imagens e texto em conjunto, além de uma avançada capacidade de uso de ferramentas em estilo agente

Mudanças principais nos recursos

OpenAI o3

  • O mais poderoso modelo focado em raciocínio até agora
  • Alcança desempenho de ponta em várias áreas, como programação, matemática, ciência e análise visual
  • Registra os melhores resultados em benchmarks como Codeforces, SWE-bench e MMMU
  • Segundo avaliações de especialistas externos, apresenta 20% menos erros graves do que o o1
  • Excelente para geração de ideias e avaliação crítica em áreas como programação, consultoria, biologia e engenharia

OpenAI o4-mini

  • Modelo pequeno otimizado para velocidade e eficiência de custo
  • Destaca-se especialmente em matemática, programação e resolução de problemas visuais
  • Melhor desempenho da categoria nos benchmarks AIME 2024 e 2025
  • Também apresenta ótimo desempenho em áreas fora de STEM em comparação com o o3-mini
  • Adequado para ambientes que exigem alto volume de uso e respostas rápidas
  • Ambos os modelos melhoram em compreensão de instruções, utilidade das respostas e confiabilidade em relação aos modelos anteriores
  • A capacidade de memória de conversa e de oferecer respostas personalizadas também foi reforçada

Recursos multimodais

  • As imagens podem ser usadas não apenas para reconhecimento simples, mas como parte do raciocínio
  • Os usuários podem enviar fotos de quadro branco, diagramas de livros, desenhos à mão etc.
  • Os modelos conseguem reconhecer e analisar até imagens borradas ou distorcidas
  • Processamentos como rotação, ampliação e transformação de imagem também podem ser executados automaticamente por meio de ferramentas
  • Foi ampliada a capacidade de resolver problemas complexos combinando informações textuais e visuais

Forma de raciocínio centrada no uso de ferramentas

  • O o3 e o o4-mini podem acessar todas as ferramentas do ChatGPT
  • Quando o usuário faz uma pergunta, eles determinam e usam automaticamente as ferramentas necessárias, como busca na web, análise de arquivos e execução de código
  • Exemplo: ao receber o pedido de “prever o consumo de energia no verão da Califórnia”, conseguem realizar em sequência busca na web → geração de código Python → criação de gráfico
  • É possível usar informações em tempo real, raciocínio em múltiplas etapas e respostas com integração de modalidades

Desempenho de raciocínio eficiente

Comparação de desempenho por custo

  • O o3, em relação ao o1, e o o4-mini, em relação ao o3-mini, alcançaram enorme melhoria em eficiência de custo
  • Com base nos resultados da competição matemática AIME 2025, tanto o o3 quanto o o4-mini são mais baratos e mais inteligentes do que seus antecessores
  • Espera-se que, em ambientes de uso real, se tornem opções mais inteligentes e mais econômicas

Melhorias de segurança

  • Foram retreinados com novos dados de treinamento para melhorar a capacidade de recusa diante de ameaças biológicas, malware e prompts de jailbreak
  • Foi introduzido um sistema de monitoramento de segurança baseado em LLM para detectar automaticamente riscos nas respostas do modelo
  • Em testes internos, houve sucesso na detecção de mais de 99% das conversas de risco
  • Em áreas de risco como bio/química, cibersegurança e autoaperfeiçoamento de IA, foram avaliados como abaixo do nível de alto risco
  • A validação de estabilidade foi concluída de acordo com os critérios mais recentes do Preparedness Framework

Codex CLI: agente avançado de raciocínio para uso no terminal

  • Ferramenta que permite usar no terminal as capacidades de raciocínio do o3 e do o4-mini
  • Os usuários podem fornecer diretamente ao modelo, via CLI, código, imagens, capturas de tela etc.
  • O modelo pode se integrar ao código do ambiente local para realizar raciocínio multimodal
  • Foi lançado como open source: github.com/openai/codex
  • A OpenAI também iniciou um programa de apoio de US$ 1 milhão para projetos baseados no Codex CLI

Como acessar

  • Usuários do ChatGPT Plus, Pro e Team: acesso imediato aos modelos o3, o4-mini e o4-mini-high
  • Usuários Enterprise e Education: acesso disponível a partir de uma semana depois
  • Usuários gratuitos também podem usar o o4-mini ao selecionar a opção “Think”
  • Usuários da API também têm acesso a partir de hoje (pode ser necessária verificação da organização)
  • Na Responses API, estão previstos vários recursos, como resumo de raciocínio, preservação do raciocínio em torno de chamadas de função e ferramenta de busca na web

Direção futura

  • Está prevista a fusão entre a capacidade especializada de raciocínio da série o e a capacidade de conversa natural da série GPT
  • No futuro, devem evoluir para modelos capazes de usar ferramentas de forma proativa enquanto mantêm conversas naturais

1 comentários

 
GN⁺ 2025-04-17
Comentários do Hacker News
  • Fizeram uma pergunta técnica sobre engenharia reversa de Final Fantasy VII, mas a IA forneceu informações incorretas

    • A IA encontrou informações em fóruns e sites, mas inventou detalhes errados, deixando o resultado impreciso
    • A IA parecia saber que não sabia a resposta, mas ainda assim apresentou valores errados com confiança
    • A expectativa é que ela seja honesta quando não conseguir encontrar a resposta certa
  • Usaram o o3 para instalar a versão mais recente do Webstorm no NixOS; ele executou uma VM do NixOS, baixou o pacote e forneceu instruções de instalação

    • Parece que até realizou testes de GUI, o que foi muito impressionante
  • O Claude 3.7 ainda mostra o melhor desempenho no SWE-bench

    • É possível que os modelos da OpenAI apresentem desempenho semelhante
  • O "teste de Turing" simples de escrever um conversor de base 62 em C# foi concluído com sucesso usando o o4-mini-high

  • Perguntaram a várias IAs a data da lua nova de agosto de 2025, mas a maioria respondeu errado

    • O Claude se recusou a responder sobre como bloquear um mecanismo de busca específico
  • O o3 e o o4 reconhecem quando não têm uma ferramenta de busca na web e se recusam a responder

    • O 4o e o 4.1 forneceram informações incorretas
    • O novo recurso de busca na web é útil e permite apagar scripts Python desnecessários
  • O Codex CLI foi disponibilizado como open source

  • Não houve comparação com o Sonnet 3.7 nem com o Gemini Pro 2.5

  • O aprendizado por reforço em larga escala tende a melhorar o desempenho quanto mais recursos computacionais usa

    • Fica a dúvida sobre por quanto tempo essa tendência vai continuar
  • Como consumidor, é cansativo acompanhar qual modelo se deve usar