Lançamento do GPT-5.2-Codex

(openai.com)

7 pontos por GN⁺ 2025-12-19 | 1 comentários | Compartilhar no WhatsApp

Modelo de codificação agente voltado a tarefas complexas de desenvolvimento no mundo real, otimizado para o ambiente Codex
Em tarefas de longa duração, mantém o contexto com compressão de contexto, ficando mais forte em grandes mudanças como refatoração e migração
No ambiente Windows nativo, houve melhoria geral de desempenho junto com reforço da capacidade de visão para ajudar na interpretação de capturas de tela, desenhos técnicos, gráficos e interfaces
Alcançou desempenho de ponta no SWE-Bench Pro e no Terminal-Bench 2.0
Ao mesmo tempo em que elevou significativamente as capacidades de cibersegurança para fins defensivos, adotou um modelo de distribuição que combina prioridade para usuários pagos e acesso baseado em confiança, considerando o potencial de uso indevido

Visão geral

Foi lançado o GPT-5.2-Codex, um modelo projetado para tarefas complexas de engenharia de software no mundo real
Baseado no GPT-5.2, foi otimizado para trabalho de codificação em estilo agente no ambiente Codex
Com compressão de contexto, oferece desempenho estável em trabalhos longos e fortalece a capacidade de realizar mudanças em larga escala no código
Houve melhorias gerais de desempenho no ambiente Windows e as capacidades de cibersegurança também foram reforçadas

Expandindo as fronteiras da engenharia de software

Modelo desenvolvido com base nos pontos fortes do GPT-5 em tarefas baseadas em conhecimento especializado e no desempenho de codificação agente e uso de terminal do GPT-5.1-Codex-Max
O objetivo é atuar como um parceiro confiável em longas sessões de programação com base em compreensão de contexto de longo prazo, estabilidade nas chamadas de ferramentas, melhorias de precisão e compactação nativa
Também inclui foco em manter a eficiência de tokens durante o processo de raciocínio
Com o reforço das capacidades de visão, aumenta a precisão na interpretação de capturas de tela, desenhos técnicos, gráficos e telas de UI compartilhados durante sessões de codificação
Com base nos recursos introduzidos no GPT-5.1-Codex-Max, realiza codificação em estilo agente de forma mais eficaz e estável também no Windows nativo

Desempenho em benchmarks

Alcançou desempenho de ponta no SWE-Bench Pro e no Terminal-Bench 2.0
- O SWE-Bench Pro avalia a geração de patches que resolvem tarefas realistas de engenharia de software a partir de repositórios de código fornecidos
- O Terminal-Bench 2.0 testa o desempenho de agentes de IA em um ambiente real de terminal, incluindo compilação de código, treinamento de modelos e configuração de servidores

Cibersegurança no mundo real

Uma cibersegurança robusta é essencial para proteger sistemas críticos e dados sensíveis da sociedade moderna
Vulnerabilidades podem permanecer ocultas por longos períodos, e o processo de descoberta, verificação e correção depende fortemente de engenheiros com ferramentas adequadas e da comunidade independente de pesquisadores de segurança
No caso em que a equipe do React divulgou, em 11 de dezembro de 2025, três vulnerabilidades de segurança que afetavam apps baseados em React Server Components, chamou atenção não só a vulnerabilidade em si, mas também o processo de descoberta
Caso de descoberta de vulnerabilidades no React
- O pesquisador de segurança Andrew MacPherson, da afiliada da Stripe Privy, conduziu a análise do React2Shell usando o GPT-5.1-Codex-Max no Codex CLI
- Usou o Codex em um fluxo padrão de segurança, incluindo configuração de ambiente local de testes, análise de superfície de ataque e fuzzing baseado em entradas anômalas
- Durante a reprodução do React2Shell, foi observado um comportamento inesperado, o que levou à descoberta de três vulnerabilidades até então desconhecidas em uma semana
- As vulnerabilidades descobertas foram divulgadas à equipe do React de forma responsável
- O caso inclui também o compartilhamento da sessão do Codex como exemplo de quanto o processo de verificação de vulnerabilidades por pesquisadores de segurança pode ser acelerado

Capacidades de cibersegurança em evolução contínua

As capacidades de cibersegurança começaram a melhorar significativamente a partir do GPT-5-Codex, deram um grande salto no GPT-5.1-Codex-Max e também mostram avanços claros no GPT-5.2-Codex
Espera-se que os próximos modelos sigam a mesma trajetória, e os planos e avaliações estão sendo conduzidos com base na possibilidade de atingir o nível “alto” de capacidade de cibersegurança no sistema de avaliações de prontidão
O GPT-5.2-Codex ainda não chegou ao nível “alto”, mas os preparativos continuam levando em conta até mesmo modelos futuros que ultrapassem esse critério

Conclusão

O GPT-5.2-Codex mostra a expansão da forma como a IA avançada contribui nas áreas de engenharia de software e cibersegurança
Ao mesmo tempo em que ajuda desenvolvedores e responsáveis por segurança a resolver desafios complexos e de longo prazo, também fortalece ainda mais as ferramentas para pesquisa de segurança responsável

1 comentários

GN⁺ 2025-12-19

Opiniões do Hacker News

Se alguém da OpenAI estiver vendo isso, por favor, não mexam na capacidade de raciocínio (reasoning)
O Codex é realmente excepcional em encontrar bugs e inconsistências em código ou matemática
Se o Claude Code é forte em “geração de código”, o Codex/GPT5.x é esmagadoramente superior na detecção de problemas
Acho que qualidade é mais importante do que velocidade
- Se eu só precisar desse tipo de detecção precisa de problemas algumas vezes por dia, fico na dúvida se o plano de US$ 20 por mês basta ou se é preciso o de US$ 200
- Acho que o problema é que “priorizar qualidade” acaba significando “aumento de custo”, e é difícil repassar esse custo extra para o cliente
- Eu também uso mais o Claude Code, mas deixar o Codex para revisão de código ligado é realmente esmagador na análise de fluxo e na detecção de bugs sutis
- É impressionante ver o “modo de raciocínio avançado” captando bugs sutis no código
- O problema é que o Codex é preciso demais e continua apontando bugs de memória que eu preciso corrigir. Por causa disso, tudo fica mais lento
No começo eu desconfiava do Codex, mas agora começo todo trabalho de programação com ele
Não é perfeito, mas tem resultados surpreendentes em refatoração, início de projetos novos e ao lidar com tecnologias desconhecidas
Principalmente, ele reduz a procrastinação. Mesmo uma tarefa grande e intimidadora, se eu jogar no Codex, ele cria um bom ponto de partida
- Concordo totalmente. Eu também era cético no início, mas fiquei chocado depois de usar o Opus 4.5
  O Codex 5.2 melhorou muito em qualidade, e agora eu deixo a própria escrita do código com ele
  Quando também uso para planejamento e discussões de arquitetura, quase não sobra motivo para eu mesmo escrever código
- Nesta thread dizem que o Codex é fraco para depuração, mas em outras há opiniões exatamente opostas
  No fim, é interessante como avaliar desempenho objetivamente é difícil
- Também concordo que o Codex reduz a procrastinação
  Mas a velocidade do loop de feedback é o ponto central. Quanto mais rápidos forem build e testes, maior a eficiência das ferramentas de codificação com agentes
  Diretrizes claras como Agents.md ajudam
- Ao comparar desempenho de modelos, sinto que é difícil fazer uma avaliação qualitativa porque há variáveis demais, como prompt, tipo de tarefa e versão do modelo
- Eu também já usei o Claude Code e tenho curiosidade sobre experiências comparando com o Codex
Depois de migrar do Claude Code para o Codex CLI, montei um ambiente de execução do Codex baseado em contêineres
Ele pode ser executado de várias formas, como timer, gatilho de arquivo, chamada de API e modo CLI
O codex-container inclui mais de 300 ferramentas MCP
Dá suporte a várias funções, como crawling, pesquisa no Google, Gmail/GCal/GDrive, Slack, embeddings e transcrição
Tarefas arriscadas do ponto de vista de segurança são testadas com segurança via isolamento em contêiner
Também é possível fazer crawling com navegador headless usando o gnosis-crawl
- Parece bom, mas se eu tiver que instalar PowerShell como dependência, provavelmente não usaria
- Tenho curiosidade se as ferramentas MCP não funcionam todas de uma vez, mas sim numa estrutura em formato de biblioteca, usando só o que for necessário
Pela minha experiência, os modelos GPT são muito mais adequados para desenvolvimento backend do que o Claude
São mais lentos, mas a lógica é clara e a manutenibilidade é maior
Eu sigo um padrão de planejar com o Claude, executar com o Codex e depois fazer revisão de código com o Claude novamente
Seria bom se o Codex CLI fosse atualizado no homebrew ao mesmo tempo que no npm
- O GPT‑5 foi o primeiro a me dar código pronto para deploy sem precisar de ajustes
  O Claude ainda tem muito enchimento desnecessário (fluff) e projeta demais
- Pela minha experiência, o Codex tem qualidade de revisão de código muito melhor que a do Claude
  O Claude aponta detalhes triviais, enquanto o Codex encontra os problemas realmente importantes
- Depois do Opus 4.5, o Claude também parece ter melhorado bastante
Do ponto de vista de segurança, é uma pena que os modelos da OpenAI limitem demais tarefas ofensivas (offensive)
Acho que, para defesa, é necessário um certo nível de simulação ofensiva
- Estou realizando testes ofensivos em uma arquitetura multiagente usando GPT‑5 como backend, e está funcionando bem sem restrições
- Tanto o ChatGPT quanto o Codex colaboram bem em testes de segurança ofensivos
- Segundo o artigo, modelos mais permissivos (permissive) são oferecidos por convite
  Acho uma abordagem razoável permitir acesso apenas a especialistas confiáveis
- Quanto à pergunta se reforçar capacidades black hat ajuda a segurança, acho que é preciso equilíbrio
- Eu também faço testes ofensivos todos os dias com modelos da OpenAI e nunca tive problemas
É interessante terem colocado “cibersegurança” tão em destaque
A automação da análise de segurança já passou do ponto crítico, e acho que automatizar tarefas repetitivas é mais importante do que avanços no modelo em si
A maior parte da análise de vulnerabilidades consiste em tarefas simples que podem ser automatizadas, e eliminá-las permite que humanos foquem em análises criativas
Para mim, o Codex sempre tem desempenho pior que o modelo base
No CLI, ele tenta escrever código com pressa demais
Mesmo quando só faço uma pergunta, ele tenta modificar arquivos, o que é incômodo
- Se você explicitar “ainda não escreva código, vamos só conversar”, ele funciona bem
- Na fase de investigação e planejamento, é mais eficiente usar modelos que não são Codex, e usar o Codex na fase de execução
- Tive a mesma experiência. O Codex até acerta funcionalmente, mas o código fica estranho ou bagunçado
- O modo plan está em desenvolvimento no momento, então espero que isso amenize o problema
  Por enquanto, se você pedir para ele editar só arquivos .md, dá para controlar um pouco
- O CodexTheModel é rápido, mas eu priorizo qualidade, então prefiro o modelo base
Acho razoável a política de permitir, por convite, acesso a modelos para pesquisa em segurança
Se o “alinhamento de segurança” for excessivo, a capacidade de análise de segurança pode cair
Se houver apenas o procedimento de KYC, será possível gerar resultados positivos de pesquisa e ao mesmo tempo reduzir a exposição ao risco
O risco de “uso dual (dual-use)” não significa novas técnicas de ataque, mas sim reduzir a barreira de execução
A mesma capacidade ajuda defensores na análise de vulnerabilidades, mas para atacantes pode virar uma ferramenta automatizada de ataque
Por isso, controle de distribuição e logging são importantes
- O resultado muda completamente dependendo de quem faz o pedido de “revisão de vulnerabilidades de segurança”: um mantenedor ou um atacante
- Ser capaz de encontrar e corrigir vulnerabilidades significa, ao mesmo tempo, maior potencial de exploração
- No fim, isso quer dizer que esse modelo é útil tanto para red team quanto para blue team
- Uma grande capacidade de detectar vulnerabilidades de segurança também significa que ela pode ser usada para automatizar ataques
Testei o GPT‑5.1 com o plugin Codex no VSCode, e foi uma experiência realmente mágica
Ainda não senti uma grande diferença no 5.2, mas acho que seria ainda melhor se os recursos fossem ampliados até o nível do Cursor ou do Kilo Code
Antes eu achava que a OpenAI tinha ficado para trás, mas o 5.1 é muito melhor que o Gemini

Lançamento do GPT-5.2-Codex

Visão geral

Expandindo as fronteiras da engenharia de software

Desempenho em benchmarks

Cibersegurança no mundo real

Caso de descoberta de vulnerabilidades no React

Capacidades de cibersegurança em evolução contínua

Conclusão

Leituras relacionadas

1 comentários

Opiniões do Hacker News