- O GPT‑5.1‑Codex‑Max, recém-lançado pela OpenAI, é o mais novo modelo de codificação agentic, projetado para executar tarefas de desenvolvimento complexas e de longo prazo, disponível no ambiente Codex
- Com a nova tecnologia de "compaction", ele processa projetos na escala de milhões de tokens de forma consistente, atravessando múltiplas janelas de contexto
- A eficiência de tokens foi aprimorada, alcançando melhor desempenho com 30% menos tokens no mesmo nível de raciocínio, com expectativa de redução de custos
- Pode trabalhar de forma independente por longos períodos e executar refatoração e depuração por mais de 24 horas
- Reforça o sandbox de segurança e o sistema de monitoramento de cibersegurança, evoluindo como um parceiro de programação com IA mais seguro
Introdução ao GPT‑5.1‑Codex‑Max
- O GPT‑5.1‑Codex‑Max é o novo modelo de codificação agentic da OpenAI, uma versão atualizada de um modelo baseado em raciocínio treinado em tarefas de diversas áreas, como engenharia de software, matemática e pesquisa
- Pode ser usado imediatamente no Codex CLI, extensões de IDE, nuvem e ambientes de revisão de código
- O acesso via API será disponibilizado em breve
- O modelo oferece melhorias em velocidade, inteligência e eficiência de tokens, atuando como um parceiro de programação mais confiável em todo o ciclo de desenvolvimento
- Por meio do processo de Compaction, ele lida de forma consistente com trabalhos na escala de milhões de tokens, atravessando múltiplas janelas de contexto
Desempenho de ponta em programação
- Foi treinado com tarefas reais de engenharia de software (geração de PR, revisão de código, programação de frontend, Q&A) e apresenta desempenho superior em várias avaliações em comparação com o modelo anterior
- É o primeiro modelo do Codex a funcionar em ambiente Windows, e também inclui melhorias para elevar a colaboração com o Codex CLI
- Além dos ganhos em benchmark, também foram confirmados resultados melhores na usabilidade real
Velocidade e eficiência de custo
- No SWE‑bench Verified, alcançou desempenho superior ao GPT‑5.1‑Codex usando 30% menos tokens no mesmo nível de raciocínio
- O modo de raciocínio "xhigh" oferece melhor qualidade ao dedicar mais tempo ao pensamento, enquanto o modo "medium" é recomendado para tarefas gerais
- O ganho em eficiência de tokens deve se traduzir em redução de custos para desenvolvedores
- Ex.: o GPT‑5.1‑Codex‑Max gera designs de frontend com funcionalidade e estética semelhantes por um custo muito menor
Tarefas de longa duração
- Com o recurso de Compaction, é possível executar refatorações complexas e loops de agente de longa duração que ultrapassam os limites de contexto
- Quando a sessão atinge o limite, ele faz automaticamente o compact (compactação), preserva o trabalho em andamento e obtém um novo contexto
- Em avaliações internas, houve casos confirmados de execução contínua por mais de 24 horas
- Ao corrigir falhas de teste e iterar na implementação, chegou por fim a resultados bem-sucedidos
- A capacidade de manter consistência no longo prazo é uma base essencial para avançar rumo a sistemas de IA gerais e confiáveis
Construindo agentes de IA seguros e confiáveis
- O desempenho em avaliações de raciocínio de longo prazo melhorou significativamente, entregando resultados melhores em cibersegurança e tarefas de programação de longa duração
- Embora ainda não alcance o nível "High" segundo o Cybersecurity Preparedness Framework, já apresenta o desempenho em cibersegurança mais forte entre os modelos lançados até agora
- O uso defensivo vem sendo reforçado por meio de iniciativas como o programa Aardvark
- Um monitoramento dedicado de cibersegurança detecta e bloqueia tentativas de abuso, e atividades suspeitas são encaminhadas ao sistema de revisão de políticas
- O Codex é executado por padrão em um sandbox de segurança, com acesso a arquivos e uso de rede limitados
- Ao acessar a internet, existe risco de prompt injection
- Os desenvolvedores precisam revisar o trabalho do agente antes da implantação
- O Codex registra logs de terminal, chamadas de ferramentas e resultados de testes, atuando como apoio, e não substituto da revisão humana
- Como os recursos de cibersegurança podem ser usados tanto para defesa quanto para ataque, a OpenAI está combinando implantação gradual e reforço de medidas de proteção
Disponibilidade e lançamento
- O GPT‑5.1‑Codex‑Max está disponível no Codex para os planos ChatGPT Plus, Pro, Business, Edu e Enterprise
- Também será disponibilizado em breve para desenvolvedores que usam o Codex CLI com chave de API
- A partir de hoje, o GPT‑5.1‑Codex‑Max substitui o GPT‑5.1‑Codex como modelo padrão no Codex
- O GPT‑5.1 é um modelo de uso geral, enquanto o Codex‑Max é recomendado especificamente para tarefas de codificação agentic
Conclusão
- O GPT‑5.1‑Codex‑Max representa um grande avanço em persistência em tarefas de codificação de longo prazo, gestão de fluxos de trabalho complexos e implementação de alta qualidade
- Em conjunto com melhorias no CLI, extensões de IDE, integração com a nuvem e ferramentas de revisão de código, isso levou a um aumento de 70% na produtividade de engenharia
- 95% dos engenheiros internos da OpenAI usam o Codex semanalmente
- Com a expansão das capacidades agentic, estamos entrando em uma nova etapa da produtividade em desenvolvimento
Apêndice: resultados de avaliação do modelo
- SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
- SWE‑Lancer IC SWE: 66.3% → 79.9%
- Terminal‑Bench 2.0: 52.8% → 58.1%
2 comentários
Codex, vamos nos encontrar na MS AOIA 😊
Comentário no Hacker News
Tenho usado bastante Claude e Codex recentemente
O Claude quase ignora as instruções (por exemplo, CLAUDE.md), enquanto o Codex segue tudo de forma obsessivamente fiel, como se não quisesse deixar passar nem uma letra
Por exemplo, se houver um erro de digitação num teste, o Claude corrige dizendo “isso claramente é um typo”, mas o Codex vai ao extremo de reescrever o motor V8 e quebrar a aritmética
Então, me parece que o Claude é mais adequado para iterações rápidas, enquanto o Codex serve melhor para trabalhos longos em que a precisão é importante
Dei apenas um parágrafo de instruções, e ele fez quase tudo perfeitamente em 45 minutos. Quando pedi um relatório resumido, vi que realmente seguiu todas as instruções sem deixar passar uma letra sequer
Essa postura é boa para quem o trata como uma caixa-preta, mas eu quero um colaborador com bom senso
Isso parece mostrar a diferença entre como a OpenAI e a Anthropic enxergam o futuro da IA
Os modelos GPT são fracos em programação improvisada, mas se destacam em tarefas com requisitos claros
Tanto em Python quanto em TypeScript havia código defensivo demais, como
.getattr()etypeofSomos bons em treinar modelos, mas ruins em dar nomes 😄
A nova versão alcançou SOTA com 77,9% no SWE-Bench-Verified, 79,9% no SWE-Lancer e 58,1% no TerminalBench 2.0
Ela consegue trabalhar por longos períodos comprimindo várias janelas de contexto, com 30% de melhoria na eficiência de tokens
Gostaria de ouvir opiniões
Se há “economia de tokens”, parece que deveria ser mais barato, mas o nome “Max” sugere algo caro
O 5.1 gastava tokens demais, então voltei para o 5.0
Consultei estes agentes de exemplo e seria ótimo ter algo assim também no Codex CLI
Hoje comparei o GPT‑5.1‑Codex‑Max com o Gemini 3 Pro no CLI
O Gemini é difícil de lidar como colaborador. Você faz uma pergunta, e ele tenta adivinhar sua intenção e já sai escrevendo código
Já o Codex responde direto à pergunta
Em qualidade de código, o Gemini tinha um estilo mais fácil para humanos lerem, mas o Codex foi muito superior em planejamento e precisão de implementação
O Gemini teve problemas como alucinação de nomes de colunas de banco, funcionalidades faltando e falta de integração
No geral, o Codex foi o vencedor claro
Consulte a documentação oficial
A OpenAI frequentemente lança seus modelos logo antes de anúncios da concorrência
O GPT‑4o também foi anunciado um dia antes do Google I/O. Este Codex provavelmente também é só um update incremental
Olhando o exemplo de renderização SVG,
o nível medium parece bem equilibrado e mostra diferenças de estilo intencionais entre high e low
Comparações assim ajudam a perceber a consistência criativa do modelo
Eu queria que as empresas gastassem nem que fosse 1% do esforço que colocam em treinar modelos para melhorar a experiência de pagamento e login
O Claude praticamente não tem sistema de login, e a OpenAI precisa corrigir o bug do Codex CLI (#2798)
O Google tornou seus produtos e sua estrutura de cobrança complicados demais. Tudo deveria ser unificado numa única página de preços
Nem contas Workspace parecem seguras. É preciso ler os ToS com atenção
Neste momento, sinto que a OpenAI oferece uma experiência do cliente muito mais confiável
O issue #12121 também menciona essa controvérsia
As frases “um novo passo para se tornar um parceiro de programação confiável” e “um modelo otimizado para trabalhos longos” soam contraditórias
Se é um parceiro, deveria trabalhar junto em ciclos curtos; ficar trabalhando sozinho por muito tempo não é parceria
O gráfico de tokens no blog oficial mostra essa direção
Fiquei impressionado com a velocidade do modo plan do Codex. A qualidade do código também pareceu boa
Mas quando eu disse “rode
npm run builde corrija todos os problemas”, ele saiu instalando pacotes relacionados ao eslint sem controleO Claude Code terminou a mesma tarefa em menos de 1 minuto. O Codex ainda parece instável
O Codex é forte em tarefas de backend ou centradas em dados, mas tende a dar resultados estranhos em trabalhos simples de UI
No último fim de semana usei Claude e Codex juntos, e o Codex teve resultados muito melhores em código TypeScript de física/gráficos
De milhares de linhas, só algumas centenas foram escritas por mim.
Agora pretendo pedir ao novo Codex para revisar o trabalho do Codex anterior