7 pontos por GN⁺ 2025-12-19 | 1 comentários | Compartilhar no WhatsApp
  • Modelo de codificação agente voltado a tarefas complexas de desenvolvimento no mundo real, otimizado para o ambiente Codex
  • Em tarefas de longa duração, mantém o contexto com compressão de contexto, ficando mais forte em grandes mudanças como refatoração e migração
  • No ambiente Windows nativo, houve melhoria geral de desempenho junto com reforço da capacidade de visão para ajudar na interpretação de capturas de tela, desenhos técnicos, gráficos e interfaces
  • Alcançou desempenho de ponta no SWE-Bench Pro e no Terminal-Bench 2.0
  • Ao mesmo tempo em que elevou significativamente as capacidades de cibersegurança para fins defensivos, adotou um modelo de distribuição que combina prioridade para usuários pagos e acesso baseado em confiança, considerando o potencial de uso indevido

Visão geral

  • Foi lançado o GPT-5.2-Codex, um modelo projetado para tarefas complexas de engenharia de software no mundo real
  • Baseado no GPT-5.2, foi otimizado para trabalho de codificação em estilo agente no ambiente Codex
  • Com compressão de contexto, oferece desempenho estável em trabalhos longos e fortalece a capacidade de realizar mudanças em larga escala no código
  • Houve melhorias gerais de desempenho no ambiente Windows e as capacidades de cibersegurança também foram reforçadas

Expandindo as fronteiras da engenharia de software

  • Modelo desenvolvido com base nos pontos fortes do GPT-5 em tarefas baseadas em conhecimento especializado e no desempenho de codificação agente e uso de terminal do GPT-5.1-Codex-Max
  • O objetivo é atuar como um parceiro confiável em longas sessões de programação com base em compreensão de contexto de longo prazo, estabilidade nas chamadas de ferramentas, melhorias de precisão e compactação nativa
  • Também inclui foco em manter a eficiência de tokens durante o processo de raciocínio
  • Com o reforço das capacidades de visão, aumenta a precisão na interpretação de capturas de tela, desenhos técnicos, gráficos e telas de UI compartilhados durante sessões de codificação
  • Com base nos recursos introduzidos no GPT-5.1-Codex-Max, realiza codificação em estilo agente de forma mais eficaz e estável também no Windows nativo

Desempenho em benchmarks

  • Alcançou desempenho de ponta no SWE-Bench Pro e no Terminal-Bench 2.0
    • O SWE-Bench Pro avalia a geração de patches que resolvem tarefas realistas de engenharia de software a partir de repositórios de código fornecidos
    • O Terminal-Bench 2.0 testa o desempenho de agentes de IA em um ambiente real de terminal, incluindo compilação de código, treinamento de modelos e configuração de servidores

Cibersegurança no mundo real

  • Uma cibersegurança robusta é essencial para proteger sistemas críticos e dados sensíveis da sociedade moderna
  • Vulnerabilidades podem permanecer ocultas por longos períodos, e o processo de descoberta, verificação e correção depende fortemente de engenheiros com ferramentas adequadas e da comunidade independente de pesquisadores de segurança
  • No caso em que a equipe do React divulgou, em 11 de dezembro de 2025, três vulnerabilidades de segurança que afetavam apps baseados em React Server Components, chamou atenção não só a vulnerabilidade em si, mas também o processo de descoberta
  • Caso de descoberta de vulnerabilidades no React

    • O pesquisador de segurança Andrew MacPherson, da afiliada da Stripe Privy, conduziu a análise do React2Shell usando o GPT-5.1-Codex-Max no Codex CLI
    • Usou o Codex em um fluxo padrão de segurança, incluindo configuração de ambiente local de testes, análise de superfície de ataque e fuzzing baseado em entradas anômalas
    • Durante a reprodução do React2Shell, foi observado um comportamento inesperado, o que levou à descoberta de três vulnerabilidades até então desconhecidas em uma semana
    • As vulnerabilidades descobertas foram divulgadas à equipe do React de forma responsável
    • O caso inclui também o compartilhamento da sessão do Codex como exemplo de quanto o processo de verificação de vulnerabilidades por pesquisadores de segurança pode ser acelerado

Capacidades de cibersegurança em evolução contínua

  • As capacidades de cibersegurança começaram a melhorar significativamente a partir do GPT-5-Codex, deram um grande salto no GPT-5.1-Codex-Max e também mostram avanços claros no GPT-5.2-Codex
  • Espera-se que os próximos modelos sigam a mesma trajetória, e os planos e avaliações estão sendo conduzidos com base na possibilidade de atingir o nível “alto” de capacidade de cibersegurança no sistema de avaliações de prontidão
  • O GPT-5.2-Codex ainda não chegou ao nível “alto”, mas os preparativos continuam levando em conta até mesmo modelos futuros que ultrapassem esse critério

Conclusão

  • O GPT-5.2-Codex mostra a expansão da forma como a IA avançada contribui nas áreas de engenharia de software e cibersegurança
  • Ao mesmo tempo em que ajuda desenvolvedores e responsáveis por segurança a resolver desafios complexos e de longo prazo, também fortalece ainda mais as ferramentas para pesquisa de segurança responsável

1 comentários

 
GN⁺ 2025-12-19
Opiniões do Hacker News
  • Se alguém da OpenAI estiver vendo isso, por favor, não mexam na capacidade de raciocínio (reasoning)
    O Codex é realmente excepcional em encontrar bugs e inconsistências em código ou matemática
    Se o Claude Code é forte em “geração de código”, o Codex/GPT5.x é esmagadoramente superior na detecção de problemas
    Acho que qualidade é mais importante do que velocidade

    • Se eu só precisar desse tipo de detecção precisa de problemas algumas vezes por dia, fico na dúvida se o plano de US$ 20 por mês basta ou se é preciso o de US$ 200
    • Acho que o problema é que “priorizar qualidade” acaba significando “aumento de custo”, e é difícil repassar esse custo extra para o cliente
    • Eu também uso mais o Claude Code, mas deixar o Codex para revisão de código ligado é realmente esmagador na análise de fluxo e na detecção de bugs sutis
    • É impressionante ver o “modo de raciocínio avançado” captando bugs sutis no código
    • O problema é que o Codex é preciso demais e continua apontando bugs de memória que eu preciso corrigir. Por causa disso, tudo fica mais lento
  • No começo eu desconfiava do Codex, mas agora começo todo trabalho de programação com ele
    Não é perfeito, mas tem resultados surpreendentes em refatoração, início de projetos novos e ao lidar com tecnologias desconhecidas
    Principalmente, ele reduz a procrastinação. Mesmo uma tarefa grande e intimidadora, se eu jogar no Codex, ele cria um bom ponto de partida

    • Concordo totalmente. Eu também era cético no início, mas fiquei chocado depois de usar o Opus 4.5
      O Codex 5.2 melhorou muito em qualidade, e agora eu deixo a própria escrita do código com ele
      Quando também uso para planejamento e discussões de arquitetura, quase não sobra motivo para eu mesmo escrever código
    • Nesta thread dizem que o Codex é fraco para depuração, mas em outras há opiniões exatamente opostas
      No fim, é interessante como avaliar desempenho objetivamente é difícil
    • Também concordo que o Codex reduz a procrastinação
      Mas a velocidade do loop de feedback é o ponto central. Quanto mais rápidos forem build e testes, maior a eficiência das ferramentas de codificação com agentes
      Diretrizes claras como Agents.md ajudam
    • Ao comparar desempenho de modelos, sinto que é difícil fazer uma avaliação qualitativa porque há variáveis demais, como prompt, tipo de tarefa e versão do modelo
    • Eu também já usei o Claude Code e tenho curiosidade sobre experiências comparando com o Codex
  • Depois de migrar do Claude Code para o Codex CLI, montei um ambiente de execução do Codex baseado em contêineres
    Ele pode ser executado de várias formas, como timer, gatilho de arquivo, chamada de API e modo CLI
    O codex-container inclui mais de 300 ferramentas MCP
    Dá suporte a várias funções, como crawling, pesquisa no Google, Gmail/GCal/GDrive, Slack, embeddings e transcrição
    Tarefas arriscadas do ponto de vista de segurança são testadas com segurança via isolamento em contêiner
    Também é possível fazer crawling com navegador headless usando o gnosis-crawl

    • Parece bom, mas se eu tiver que instalar PowerShell como dependência, provavelmente não usaria
    • Tenho curiosidade se as ferramentas MCP não funcionam todas de uma vez, mas sim numa estrutura em formato de biblioteca, usando só o que for necessário
  • Pela minha experiência, os modelos GPT são muito mais adequados para desenvolvimento backend do que o Claude
    São mais lentos, mas a lógica é clara e a manutenibilidade é maior
    Eu sigo um padrão de planejar com o Claude, executar com o Codex e depois fazer revisão de código com o Claude novamente
    Seria bom se o Codex CLI fosse atualizado no homebrew ao mesmo tempo que no npm

    • O GPT‑5 foi o primeiro a me dar código pronto para deploy sem precisar de ajustes
      O Claude ainda tem muito enchimento desnecessário (fluff) e projeta demais
    • Pela minha experiência, o Codex tem qualidade de revisão de código muito melhor que a do Claude
      O Claude aponta detalhes triviais, enquanto o Codex encontra os problemas realmente importantes
    • Depois do Opus 4.5, o Claude também parece ter melhorado bastante
  • Do ponto de vista de segurança, é uma pena que os modelos da OpenAI limitem demais tarefas ofensivas (offensive)
    Acho que, para defesa, é necessário um certo nível de simulação ofensiva

    • Estou realizando testes ofensivos em uma arquitetura multiagente usando GPT‑5 como backend, e está funcionando bem sem restrições
    • Tanto o ChatGPT quanto o Codex colaboram bem em testes de segurança ofensivos
    • Segundo o artigo, modelos mais permissivos (permissive) são oferecidos por convite
      Acho uma abordagem razoável permitir acesso apenas a especialistas confiáveis
    • Quanto à pergunta se reforçar capacidades black hat ajuda a segurança, acho que é preciso equilíbrio
    • Eu também faço testes ofensivos todos os dias com modelos da OpenAI e nunca tive problemas
  • É interessante terem colocado “cibersegurança” tão em destaque
    A automação da análise de segurança já passou do ponto crítico, e acho que automatizar tarefas repetitivas é mais importante do que avanços no modelo em si
    A maior parte da análise de vulnerabilidades consiste em tarefas simples que podem ser automatizadas, e eliminá-las permite que humanos foquem em análises criativas

  • Para mim, o Codex sempre tem desempenho pior que o modelo base
    No CLI, ele tenta escrever código com pressa demais
    Mesmo quando só faço uma pergunta, ele tenta modificar arquivos, o que é incômodo

    • Se você explicitar “ainda não escreva código, vamos só conversar”, ele funciona bem
    • Na fase de investigação e planejamento, é mais eficiente usar modelos que não são Codex, e usar o Codex na fase de execução
    • Tive a mesma experiência. O Codex até acerta funcionalmente, mas o código fica estranho ou bagunçado
    • O modo plan está em desenvolvimento no momento, então espero que isso amenize o problema
      Por enquanto, se você pedir para ele editar só arquivos .md, dá para controlar um pouco
    • O CodexTheModel é rápido, mas eu priorizo qualidade, então prefiro o modelo base
  • Acho razoável a política de permitir, por convite, acesso a modelos para pesquisa em segurança
    Se o “alinhamento de segurança” for excessivo, a capacidade de análise de segurança pode cair
    Se houver apenas o procedimento de KYC, será possível gerar resultados positivos de pesquisa e ao mesmo tempo reduzir a exposição ao risco

  • O risco de “uso dual (dual-use)” não significa novas técnicas de ataque, mas sim reduzir a barreira de execução
    A mesma capacidade ajuda defensores na análise de vulnerabilidades, mas para atacantes pode virar uma ferramenta automatizada de ataque
    Por isso, controle de distribuição e logging são importantes

    • O resultado muda completamente dependendo de quem faz o pedido de “revisão de vulnerabilidades de segurança”: um mantenedor ou um atacante
    • Ser capaz de encontrar e corrigir vulnerabilidades significa, ao mesmo tempo, maior potencial de exploração
    • No fim, isso quer dizer que esse modelo é útil tanto para red team quanto para blue team
    • Uma grande capacidade de detectar vulnerabilidades de segurança também significa que ela pode ser usada para automatizar ataques
  • Testei o GPT‑5.1 com o plugin Codex no VSCode, e foi uma experiência realmente mágica
    Ainda não senti uma grande diferença no 5.2, mas acho que seria ainda melhor se os recursos fossem ampliados até o nível do Cursor ou do Kilo Code
    Antes eu achava que a OpenAI tinha ficado para trás, mas o 5.1 é muito melhor que o Gemini