- Modelo de codificação agente voltado a tarefas complexas de desenvolvimento no mundo real, otimizado para o ambiente Codex
- Em tarefas de longa duração, mantém o contexto com compressão de contexto, ficando mais forte em grandes mudanças como refatoração e migração
- No ambiente Windows nativo, houve melhoria geral de desempenho junto com reforço da capacidade de visão para ajudar na interpretação de capturas de tela, desenhos técnicos, gráficos e interfaces
- Alcançou desempenho de ponta no SWE-Bench Pro e no Terminal-Bench 2.0
- Ao mesmo tempo em que elevou significativamente as capacidades de cibersegurança para fins defensivos, adotou um modelo de distribuição que combina prioridade para usuários pagos e acesso baseado em confiança, considerando o potencial de uso indevido
Visão geral
- Foi lançado o GPT-5.2-Codex, um modelo projetado para tarefas complexas de engenharia de software no mundo real
- Baseado no GPT-5.2, foi otimizado para trabalho de codificação em estilo agente no ambiente Codex
- Com compressão de contexto, oferece desempenho estável em trabalhos longos e fortalece a capacidade de realizar mudanças em larga escala no código
- Houve melhorias gerais de desempenho no ambiente Windows e as capacidades de cibersegurança também foram reforçadas
Expandindo as fronteiras da engenharia de software
- Modelo desenvolvido com base nos pontos fortes do GPT-5 em tarefas baseadas em conhecimento especializado e no desempenho de codificação agente e uso de terminal do GPT-5.1-Codex-Max
- O objetivo é atuar como um parceiro confiável em longas sessões de programação com base em compreensão de contexto de longo prazo, estabilidade nas chamadas de ferramentas, melhorias de precisão e compactação nativa
- Também inclui foco em manter a eficiência de tokens durante o processo de raciocínio
- Com o reforço das capacidades de visão, aumenta a precisão na interpretação de capturas de tela, desenhos técnicos, gráficos e telas de UI compartilhados durante sessões de codificação
- Com base nos recursos introduzidos no GPT-5.1-Codex-Max, realiza codificação em estilo agente de forma mais eficaz e estável também no Windows nativo
Desempenho em benchmarks
- Alcançou desempenho de ponta no SWE-Bench Pro e no Terminal-Bench 2.0
- O SWE-Bench Pro avalia a geração de patches que resolvem tarefas realistas de engenharia de software a partir de repositórios de código fornecidos
- O Terminal-Bench 2.0 testa o desempenho de agentes de IA em um ambiente real de terminal, incluindo compilação de código, treinamento de modelos e configuração de servidores
Cibersegurança no mundo real
- Uma cibersegurança robusta é essencial para proteger sistemas críticos e dados sensíveis da sociedade moderna
- Vulnerabilidades podem permanecer ocultas por longos períodos, e o processo de descoberta, verificação e correção depende fortemente de engenheiros com ferramentas adequadas e da comunidade independente de pesquisadores de segurança
- No caso em que a equipe do React divulgou, em 11 de dezembro de 2025, três vulnerabilidades de segurança que afetavam apps baseados em React Server Components, chamou atenção não só a vulnerabilidade em si, mas também o processo de descoberta
-
Caso de descoberta de vulnerabilidades no React
- O pesquisador de segurança Andrew MacPherson, da afiliada da Stripe Privy, conduziu a análise do React2Shell usando o GPT-5.1-Codex-Max no Codex CLI
- Usou o Codex em um fluxo padrão de segurança, incluindo configuração de ambiente local de testes, análise de superfície de ataque e fuzzing baseado em entradas anômalas
- Durante a reprodução do React2Shell, foi observado um comportamento inesperado, o que levou à descoberta de três vulnerabilidades até então desconhecidas em uma semana
- As vulnerabilidades descobertas foram divulgadas à equipe do React de forma responsável
- O caso inclui também o compartilhamento da sessão do Codex como exemplo de quanto o processo de verificação de vulnerabilidades por pesquisadores de segurança pode ser acelerado
Capacidades de cibersegurança em evolução contínua
- As capacidades de cibersegurança começaram a melhorar significativamente a partir do GPT-5-Codex, deram um grande salto no GPT-5.1-Codex-Max e também mostram avanços claros no GPT-5.2-Codex
- Espera-se que os próximos modelos sigam a mesma trajetória, e os planos e avaliações estão sendo conduzidos com base na possibilidade de atingir o nível “alto” de capacidade de cibersegurança no sistema de avaliações de prontidão
- O GPT-5.2-Codex ainda não chegou ao nível “alto”, mas os preparativos continuam levando em conta até mesmo modelos futuros que ultrapassem esse critério
Conclusão
- O GPT-5.2-Codex mostra a expansão da forma como a IA avançada contribui nas áreas de engenharia de software e cibersegurança
- Ao mesmo tempo em que ajuda desenvolvedores e responsáveis por segurança a resolver desafios complexos e de longo prazo, também fortalece ainda mais as ferramentas para pesquisa de segurança responsável
1 comentários
Opiniões do Hacker News
Se alguém da OpenAI estiver vendo isso, por favor, não mexam na capacidade de raciocínio (reasoning)
O Codex é realmente excepcional em encontrar bugs e inconsistências em código ou matemática
Se o Claude Code é forte em “geração de código”, o Codex/GPT5.x é esmagadoramente superior na detecção de problemas
Acho que qualidade é mais importante do que velocidade
No começo eu desconfiava do Codex, mas agora começo todo trabalho de programação com ele
Não é perfeito, mas tem resultados surpreendentes em refatoração, início de projetos novos e ao lidar com tecnologias desconhecidas
Principalmente, ele reduz a procrastinação. Mesmo uma tarefa grande e intimidadora, se eu jogar no Codex, ele cria um bom ponto de partida
O Codex 5.2 melhorou muito em qualidade, e agora eu deixo a própria escrita do código com ele
Quando também uso para planejamento e discussões de arquitetura, quase não sobra motivo para eu mesmo escrever código
No fim, é interessante como avaliar desempenho objetivamente é difícil
Mas a velocidade do loop de feedback é o ponto central. Quanto mais rápidos forem build e testes, maior a eficiência das ferramentas de codificação com agentes
Diretrizes claras como Agents.md ajudam
Depois de migrar do Claude Code para o Codex CLI, montei um ambiente de execução do Codex baseado em contêineres
Ele pode ser executado de várias formas, como timer, gatilho de arquivo, chamada de API e modo CLI
O codex-container inclui mais de 300 ferramentas MCP
Dá suporte a várias funções, como crawling, pesquisa no Google, Gmail/GCal/GDrive, Slack, embeddings e transcrição
Tarefas arriscadas do ponto de vista de segurança são testadas com segurança via isolamento em contêiner
Também é possível fazer crawling com navegador headless usando o gnosis-crawl
Pela minha experiência, os modelos GPT são muito mais adequados para desenvolvimento backend do que o Claude
São mais lentos, mas a lógica é clara e a manutenibilidade é maior
Eu sigo um padrão de planejar com o Claude, executar com o Codex e depois fazer revisão de código com o Claude novamente
Seria bom se o Codex CLI fosse atualizado no homebrew ao mesmo tempo que no npm
O Claude ainda tem muito enchimento desnecessário (fluff) e projeta demais
O Claude aponta detalhes triviais, enquanto o Codex encontra os problemas realmente importantes
Do ponto de vista de segurança, é uma pena que os modelos da OpenAI limitem demais tarefas ofensivas (offensive)
Acho que, para defesa, é necessário um certo nível de simulação ofensiva
Acho uma abordagem razoável permitir acesso apenas a especialistas confiáveis
É interessante terem colocado “cibersegurança” tão em destaque
A automação da análise de segurança já passou do ponto crítico, e acho que automatizar tarefas repetitivas é mais importante do que avanços no modelo em si
A maior parte da análise de vulnerabilidades consiste em tarefas simples que podem ser automatizadas, e eliminá-las permite que humanos foquem em análises criativas
Para mim, o Codex sempre tem desempenho pior que o modelo base
No CLI, ele tenta escrever código com pressa demais
Mesmo quando só faço uma pergunta, ele tenta modificar arquivos, o que é incômodo
Por enquanto, se você pedir para ele editar só arquivos
.md, dá para controlar um poucoAcho razoável a política de permitir, por convite, acesso a modelos para pesquisa em segurança
Se o “alinhamento de segurança” for excessivo, a capacidade de análise de segurança pode cair
Se houver apenas o procedimento de KYC, será possível gerar resultados positivos de pesquisa e ao mesmo tempo reduzir a exposição ao risco
O risco de “uso dual (dual-use)” não significa novas técnicas de ataque, mas sim reduzir a barreira de execução
A mesma capacidade ajuda defensores na análise de vulnerabilidades, mas para atacantes pode virar uma ferramenta automatizada de ataque
Por isso, controle de distribuição e logging são importantes
Testei o GPT‑5.1 com o plugin Codex no VSCode, e foi uma experiência realmente mágica
Ainda não senti uma grande diferença no 5.2, mas acho que seria ainda melhor se os recursos fossem ampliados até o nível do Cursor ou do Kilo Code
Antes eu achava que a OpenAI tinha ficado para trás, mas o 5.1 é muito melhor que o Gemini