Construindo mais com o GPT‑5.1‑Codex‑Max

(openai.com)

5 pontos por GN⁺ 2025-11-20 | 2 comentários | Compartilhar no WhatsApp

O GPT‑5.1‑Codex‑Max, recém-lançado pela OpenAI, é o mais novo modelo de codificação agentic, projetado para executar tarefas de desenvolvimento complexas e de longo prazo, disponível no ambiente Codex
Com a nova tecnologia de "compaction", ele processa projetos na escala de milhões de tokens de forma consistente, atravessando múltiplas janelas de contexto
A eficiência de tokens foi aprimorada, alcançando melhor desempenho com 30% menos tokens no mesmo nível de raciocínio, com expectativa de redução de custos
Pode trabalhar de forma independente por longos períodos e executar refatoração e depuração por mais de 24 horas
Reforça o sandbox de segurança e o sistema de monitoramento de cibersegurança, evoluindo como um parceiro de programação com IA mais seguro

Introdução ao GPT‑5.1‑Codex‑Max

O GPT‑5.1‑Codex‑Max é o novo modelo de codificação agentic da OpenAI, uma versão atualizada de um modelo baseado em raciocínio treinado em tarefas de diversas áreas, como engenharia de software, matemática e pesquisa
- Pode ser usado imediatamente no Codex CLI, extensões de IDE, nuvem e ambientes de revisão de código
- O acesso via API será disponibilizado em breve
O modelo oferece melhorias em velocidade, inteligência e eficiência de tokens, atuando como um parceiro de programação mais confiável em todo o ciclo de desenvolvimento
Por meio do processo de Compaction, ele lida de forma consistente com trabalhos na escala de milhões de tokens, atravessando múltiplas janelas de contexto

Desempenho de ponta em programação

Foi treinado com tarefas reais de engenharia de software (geração de PR, revisão de código, programação de frontend, Q&A) e apresenta desempenho superior em várias avaliações em comparação com o modelo anterior
É o primeiro modelo do Codex a funcionar em ambiente Windows, e também inclui melhorias para elevar a colaboração com o Codex CLI
Além dos ganhos em benchmark, também foram confirmados resultados melhores na usabilidade real

Velocidade e eficiência de custo

No SWE‑bench Verified, alcançou desempenho superior ao GPT‑5.1‑Codex usando 30% menos tokens no mesmo nível de raciocínio
O modo de raciocínio "xhigh" oferece melhor qualidade ao dedicar mais tempo ao pensamento, enquanto o modo "medium" é recomendado para tarefas gerais
O ganho em eficiência de tokens deve se traduzir em redução de custos para desenvolvedores
- Ex.: o GPT‑5.1‑Codex‑Max gera designs de frontend com funcionalidade e estética semelhantes por um custo muito menor

Tarefas de longa duração

Com o recurso de Compaction, é possível executar refatorações complexas e loops de agente de longa duração que ultrapassam os limites de contexto
- Quando a sessão atinge o limite, ele faz automaticamente o compact (compactação), preserva o trabalho em andamento e obtém um novo contexto
Em avaliações internas, houve casos confirmados de execução contínua por mais de 24 horas
- Ao corrigir falhas de teste e iterar na implementação, chegou por fim a resultados bem-sucedidos
A capacidade de manter consistência no longo prazo é uma base essencial para avançar rumo a sistemas de IA gerais e confiáveis

Construindo agentes de IA seguros e confiáveis

O desempenho em avaliações de raciocínio de longo prazo melhorou significativamente, entregando resultados melhores em cibersegurança e tarefas de programação de longa duração
Embora ainda não alcance o nível "High" segundo o Cybersecurity Preparedness Framework, já apresenta o desempenho em cibersegurança mais forte entre os modelos lançados até agora
- O uso defensivo vem sendo reforçado por meio de iniciativas como o programa Aardvark
Um monitoramento dedicado de cibersegurança detecta e bloqueia tentativas de abuso, e atividades suspeitas são encaminhadas ao sistema de revisão de políticas
O Codex é executado por padrão em um sandbox de segurança, com acesso a arquivos e uso de rede limitados
- Ao acessar a internet, existe risco de prompt injection
Os desenvolvedores precisam revisar o trabalho do agente antes da implantação
- O Codex registra logs de terminal, chamadas de ferramentas e resultados de testes, atuando como apoio, e não substituto da revisão humana
Como os recursos de cibersegurança podem ser usados tanto para defesa quanto para ataque, a OpenAI está combinando implantação gradual e reforço de medidas de proteção

Disponibilidade e lançamento

O GPT‑5.1‑Codex‑Max está disponível no Codex para os planos ChatGPT Plus, Pro, Business, Edu e Enterprise
Também será disponibilizado em breve para desenvolvedores que usam o Codex CLI com chave de API
A partir de hoje, o GPT‑5.1‑Codex‑Max substitui o GPT‑5.1‑Codex como modelo padrão no Codex
- O GPT‑5.1 é um modelo de uso geral, enquanto o Codex‑Max é recomendado especificamente para tarefas de codificação agentic

Conclusão

O GPT‑5.1‑Codex‑Max representa um grande avanço em persistência em tarefas de codificação de longo prazo, gestão de fluxos de trabalho complexos e implementação de alta qualidade
Em conjunto com melhorias no CLI, extensões de IDE, integração com a nuvem e ferramentas de revisão de código, isso levou a um aumento de 70% na produtividade de engenharia
- 95% dos engenheiros internos da OpenAI usam o Codex semanalmente
Com a expansão das capacidades agentic, estamos entrando em uma nova etapa da produtividade em desenvolvimento

Apêndice: resultados de avaliação do modelo

SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
SWE‑Lancer IC SWE: 66.3% → 79.9%
Terminal‑Bench 2.0: 52.8% → 58.1%

2 comentários

kaydash 2025-11-27

Codex, vamos nos encontrar na MS AOIA 😊

GN⁺ 2025-11-20

Comentário no Hacker News

Tenho usado bastante Claude e Codex recentemente
O Claude quase ignora as instruções (por exemplo, CLAUDE.md), enquanto o Codex segue tudo de forma obsessivamente fiel, como se não quisesse deixar passar nem uma letra
Por exemplo, se houver um erro de digitação num teste, o Claude corrige dizendo “isso claramente é um typo”, mas o Codex vai ao extremo de reescrever o motor V8 e quebrar a aritmética
Então, me parece que o Claude é mais adequado para iterações rápidas, enquanto o Codex serve melhor para trabalhos longos em que a precisão é importante
- Também fiquei profundamente impressionado com o Codex. Num projeto de simulador de voo em que estou há 6 meses, precisei migrar o sistema de coordenadas para ECEF, o que exigiu reescrever todo o motor de física e o sistema gráfico
  Dei apenas um parágrafo de instruções, e ele fez quase tudo perfeitamente em 45 minutos. Quando pedi um relatório resumido, vi que realmente seguiu todas as instruções sem deixar passar uma letra sequer
- Um amigo pediu ao Claude para sempre chamá-lo de “Mr Tinkleberry”, e disse que consegue detectar quando as instruções são ignoradas sempre que o Claude esquece isso
- O Codex age como se fosse “o último programador da Terra”. Ele tenta cumprir o objetivo aconteça o que acontecer
  Essa postura é boa para quem o trata como uma caixa-preta, mas eu quero um colaborador com bom senso
  Isso parece mostrar a diferença entre como a OpenAI e a Anthropic enxergam o futuro da IA
- A analogia do “corrigir o teste 1+1===3” é realmente excelente. Essa única frase explica a diferença fundamental entre a linha GPT e a linha Claude
  Os modelos GPT são fracos em programação improvisada, mas se destacam em tarefas com requisitos claros
- O que me frustrou no Codex foi que ele praticamente não consegue apagar código e sempre faz a base crescer desnecessariamente
  Tanto em Python quanto em TypeScript havia código defensivo demais, como .getattr() e typeof
Somos bons em treinar modelos, mas ruins em dar nomes 😄
A nova versão alcançou SOTA com 77,9% no SWE-Bench-Verified, 79,9% no SWE-Lancer e 58,1% no TerminalBench 2.0
Ela consegue trabalhar por longos períodos comprimindo várias janelas de contexto, com 30% de melhoria na eficiência de tokens
Gostaria de ouvir opiniões
- Estou usando o GPT‑5.1‑Codex‑High agora, mas tenho curiosidade sobre como a versão Max difere em custo e limite de créditos
  Se há “economia de tokens”, parece que deveria ser mais barato, mas o nome “Max” sugere algo caro
- O Codex é um ótimo produto, então até um upgrade incremental já é bem-vindo. Pretendo testar em breve
- Gostaria de saber se o issue #6426 foi resolvido.
  O 5.1 gastava tokens demais, então voltei para o 5.0
- Seria bom poder usar esse modelo também na interface de Chat
- Gosto do recurso de subagentes do Claude Code. Ele é útil para gerenciar contexto em codebases complexas
  Consultei estes agentes de exemplo e seria ótimo ter algo assim também no Codex CLI
Hoje comparei o GPT‑5.1‑Codex‑Max com o Gemini 3 Pro no CLI
O Gemini é difícil de lidar como colaborador. Você faz uma pergunta, e ele tenta adivinhar sua intenção e já sai escrevendo código
Já o Codex responde direto à pergunta
Em qualidade de código, o Gemini tinha um estilo mais fácil para humanos lerem, mas o Codex foi muito superior em planejamento e precisão de implementação
O Gemini teve problemas como alucinação de nomes de colunas de banco, funcionalidades faltando e falta de integração
No geral, o Codex foi o vencedor claro
- O Google se gabou de que o Gemini 3 era o melhor em todos os benchmarks, mas isso mostra que, na prática, não é bem assim
- Ao usar o Gemini, é preciso manter a configuração de temperature no valor padrão 1.0. Se baixar, surgem loops ou queda de desempenho
  Consulte a documentação oficial
- Comigo também acontece: mesmo quando digo ao Gemini para “não escrever código”, ele continua reescrevendo código
A OpenAI frequentemente lança seus modelos logo antes de anúncios da concorrência
O GPT‑4o também foi anunciado um dia antes do Google I/O. Este Codex provavelmente também é só um update incremental
- GPT‑5.1 / Codex já estava à frente do Gemini 3 nos benchmarks, e esta atualização amplia ainda mais a vantagem
- A Anthropic também lançou o Opus 4.1 perto do lançamento do GPT‑5. Agora a competição ficou acirrada
- Graças a essa competição, o progresso está acelerando. Temos que agradecer pela concorrência saudável
- O Gemini está avançando sobre o mercado, e a OpenAI sabe disso
- Essa disputa pelo timing dos anúncios já está ficando familiar
Olhando o exemplo de renderização SVG,
o nível medium parece bem equilibrado e mostra diferenças de estilo intencionais entre high e low
Comparações assim ajudam a perceber a consistência criativa do modelo
- Mas esse tipo de benchmark de saída SVG parece estar perdendo relevância. Pode muito bem ser resultado de ajuste fino especializado com RLHF
Eu queria que as empresas gastassem nem que fosse 1% do esforço que colocam em treinar modelos para melhorar a experiência de pagamento e login
O Claude praticamente não tem sistema de login, e a OpenAI precisa corrigir o bug do Codex CLI (#2798)
O Google tornou seus produtos e sua estrutura de cobrança complicados demais. Tudo deveria ser unificado numa única página de preços
- Eu também desisti por causa do sistema de pagamento do Google. Nem sei o que é Google Payments, e um erro de verificação de conta bloqueou a conta da minha empresa, que existia havia 18 anos
- A linha de produtos do Google é uma bagunça. Vertex AI, AI Studio, Maker Studio, Gemini... a documentação se sobrepõe e não é clara
- A opção de opt-out do uso de dados para treinamento no Gemini desapareceu, e também não está claro quais contas entram no treinamento
  Nem contas Workspace parecem seguras. É preciso ler os ToS com atenção
  Neste momento, sinto que a OpenAI oferece uma experiência do cliente muito mais confiável
- Suspeito que o Gemini 3 Pro tenha sido pós-treinado com dados sem autorização
  O issue #12121 também menciona essa controvérsia
- O Claude é inconveniente no login porque não oferece opção de senha nem passkey
As frases “um novo passo para se tornar um parceiro de programação confiável” e “um modelo otimizado para trabalhos longos” soam contraditórias
Se é um parceiro, deveria trabalhar junto em ciclos curtos; ficar trabalhando sozinho por muito tempo não é parceria
- O Codex é excessivamente autônomo em trabalhos longos e toma abordagens arriscadas, como reescrever até bibliotecas TLS
- (Membro da equipe Codex) Nosso objetivo é um modelo em estilo colega de equipe que possa fazer tanto iterações curtas quanto tarefas longas delegadas
  O gráfico de tokens no blog oficial mostra essa direção
- Também recomendo o modelo Composer do Cursor. Ele é muito rápido, e mesmo que o resultado fique aquém, dá para tentar de novo em 30 segundos
Fiquei impressionado com a velocidade do modo plan do Codex. A qualidade do código também pareceu boa
Mas quando eu disse “rode npm run build e corrija todos os problemas”, ele saiu instalando pacotes relacionados ao eslint sem controle
O Claude Code terminou a mesma tarefa em menos de 1 minuto. O Codex ainda parece instável
- Fiquei curioso sobre o que é o modo plan
O Codex é forte em tarefas de backend ou centradas em dados, mas tende a dar resultados estranhos em trabalhos simples de UI
No último fim de semana usei Claude e Codex juntos, e o Codex teve resultados muito melhores em código TypeScript de física/gráficos
De milhares de linhas, só algumas centenas foram escritas por mim.
Agora pretendo pedir ao novo Codex para revisar o trabalho do Codex anterior

Construindo mais com o GPT‑5.1‑Codex‑Max

Introdução ao GPT‑5.1‑Codex‑Max

Desempenho de ponta em programação

Velocidade e eficiência de custo

Tarefas de longa duração

Construindo agentes de IA seguros e confiáveis

Disponibilidade e lançamento

Conclusão

Apêndice: resultados de avaliação do modelo

Leituras relacionadas

2 comentários

Comentário no Hacker News