- Combina o desempenho de programação do GPT-5.2-Codex com o raciocínio e conhecimento especializado do GPT-5.2 em um único modelo, oferecendo 25% mais velocidade
- Expande o escopo de trabalho agentic do Codex para tarefas de longa duração e integra ao app Codex uma colaboração interativa em tempo real que permite mudar de direção e incorporar feedback durante a execução
- Primeiro modelo que participa do próprio desenvolvimento cujo estágio inicial foi usado diretamente para depuração do processo de treinamento, gerenciamento de implantação e diagnóstico de avaliação
- Alcança desempenho líder do setor em benchmarks importantes como SWE-Bench Pro, Terminal-Bench 2.0 e OSWorld, operando com menos tokens que o modelo anterior
- Vai além de escrever código e dá suporte ao trabalho intelectual em todo o ciclo de vida do software, incluindo apresentações, planilhas e análise de dados
Visão geral
- O GPT-5.3-Codex é descrito como “o modelo de programação agentic mais capaz”
- Combina o desempenho de ponta em programação do GPT-5.2-Codex com as capacidades de raciocínio e conhecimento especializado do GPT-5.2 em um único modelo, com ganho de 25% em velocidade
- Foi projetado para executar tarefas longas envolvendo pesquisa, uso de ferramentas e execução complexa, mantendo a coordenação sem perder o contexto durante o trabalho
- Participou de autoaprendizado, implantação e diagnóstico de avaliação usando versões iniciais, tornando-se o primeiro modelo a “acelerar o próprio desenvolvimento”
- Expande o papel do Codex de “escrever e revisar código” para “quase todo o trabalho que desenvolvedores e especialistas fazem em um computador”
Capacidades agentic de ponta
-
Desempenho em programação
- Atinge o melhor desempenho no SWE-Bench Pro (avaliação de engenharia de software do mundo real). Diferentemente do SWE-Bench Verified, que testa apenas Python, esse benchmark cobre 4 linguagens, tem maior resistência à contaminação e mais relevância industrial
- No Terminal-Bench 2.0, também supera com folga o melhor resultado anterior, medindo habilidades de terminal necessárias para agentes de programação
- Consegue realizar a mesma tarefa com menos tokens em comparação com o modelo anterior
-
Desenvolvimento web
- A combinação de capacidade de programação de ponta, melhor senso estético e técnicas de compressão permite construir jogos e apps complexos do zero ao longo de vários dias
- Para testar desenvolvimento web e capacidades agentic de longa duração, foram criados dois jogos: um de corrida e um de mergulho
- Jogo de corrida: vários pilotos, 8 mapas e itens acionados com a barra de espaço
- Jogo de mergulho: exploração de diferentes recifes de coral, coleção de enciclopédia de peixes e gerenciamento de oxigênio, pressão da água e perigos
- Usando a skill "develop web game" e prompts de acompanhamento genéricos predefinidos como "fix the bug" e "improve the game", o modelo iterou melhorias de forma autônoma ao longo de milhões de tokens
- Na criação de sites do dia a dia, entende melhor a intenção do usuário do que o GPT-5.2-Codex e aplica automaticamente mais funcionalidades e padrões sensatos mesmo com prompts simples ou insuficientes
- Exemplo de comparação de landing page: o GPT-5.3-Codex exibe automaticamente o plano anual como preço mensal com desconto e gera um carrossel automático de recomendação de conversão com 3 citações de usuários, entregando um resultado mais completo
-
Capacidades além da programação
- Dá suporte a todo o ciclo de vida do software, incluindo depuração, implantação, monitoramento, redação de PRD, edição de textos, pesquisa com usuários, testes e análise de métricas, em tarefas de engenheiros de software, designers, product managers e cientistas de dados
- Também se expande para áreas fora do software, como criação de apresentações e análise de dados em planilhas
- No GDPval (avaliação de tarefas bem definidas de trabalho intelectual em 44 ocupações), alcança 70,9%, igual ao GPT-5.2
- Inclui entregáveis reais de trabalho, como apresentações e planilhas
- São apresentados exemplos de entregáveis como slides de consultoria financeira, documentos de treinamento de varejo, planilhas de análise de NPV e PDFs de apresentação de moda
- No OSWorld-Verified (benchmark de uso agentic de computador em ambiente visual de desktop para tarefas de produtividade), alcança 64,7%, uma alta expressiva em relação aos modelos GPT anteriores (38,2%)
- A pontuação humana é de cerca de 72%
Colaborador interativo
- À medida que a capacidade do modelo aumenta, o desafio central passa de “o que o agente consegue fazer” para quão facilmente humanos conseguem instruir e supervisionar vários agentes trabalhando em paralelo
- O app Codex facilita o gerenciamento e a instrução de agentes e, no GPT-5.3-Codex, oferece maior interatividade
- Atualiza com frequência decisões importantes e o andamento do trabalho, para que o usuário possa fazer perguntas em tempo real, discutir a abordagem e ajustar a direção sem esperar pelo resultado final
- Explica o que está fazendo, responde a feedback e mantém o usuário dentro do loop do início ao fim
- Caminho de configuração: Settings > General > Follow-up behavior para ativar orientação durante a execução do modelo
Treinamento e implantação do GPT-5.3-Codex com o uso do Codex
- As melhorias rápidas mais recentes do Codex foram construídas sobre projetos de pesquisa de meses a anos em toda a OpenAI
- Muitos pesquisadores e engenheiros da OpenAI dizem que a forma atual de trabalhar é fundamentalmente diferente de dois meses atrás
- As versões iniciais do GPT-5.3-Codex já mostravam grande capacidade, e a equipe usou essas versões para apoiar melhorias de treinamento e a implantação das versões posteriores
-
Exemplos de uso pela equipe de pesquisa
- O Codex foi usado no monitoramento e depuração de execuções de treinamento deste lançamento
- Indo além da depuração de problemas de infraestrutura, foram criadas aplicações ricas para rastrear padrões ao longo do processo de treinamento, analisar profundamente a qualidade das interações, sugerir correções e identificar com precisão diferenças de comportamento em relação a modelos anteriores
-
Exemplos de uso pela equipe de engenharia
- O Codex foi usado na otimização e adaptação do harness para o GPT-5.3-Codex
- Quando surgiram edge cases estranhos que afetavam usuários, o Codex ajudou a identificar bugs de renderização de contexto e a analisar a causa raiz de baixa taxa de acerto de cache
- Durante o lançamento, continuou sendo usado para escalonamento dinâmico de clusters de GPU e estabilização da latência diante de picos de tráfego
-
Exemplos de uso em testes alpha
- Um pesquisador quis entender quanto trabalho adicional o GPT-5.3-Codex realizava por turno e qual era a diferença de produtividade
- O GPT-5.3-Codex criou vários classificadores simples com regex para estimar frequência de perguntas de esclarecimento, respostas positivas e negativas e progresso das tarefas, executou isso em larga escala sobre logs completos de sessão e gerou um relatório conclusivo
- A satisfação de quem construiu com Codex foi maior, e o agente mostrou melhor entendimento de intenção, mais progresso por turno e menos perguntas de esclarecimento
-
Construção de pipeline de dados
- Os dados dos testes alpha eram muito diferentes dos modelos anteriores, causando muitos resultados anômalos e contraintuitivos
- Um cientista de dados construiu um novo pipeline com o GPT-5.3-Codex e produziu visualizações muito mais ricas do que as ferramentas padrão de dashboard
- Ao analisar conjuntamente os resultados com o Codex, conseguiu resumir os principais insights de milhares de pontos de dados em menos de 3 minutos
Garantindo a fronteira de segurança cibernética
- Nos últimos meses, o desempenho do modelo em tarefas de cibersegurança melhorou de forma significativa, beneficiando tanto desenvolvedores quanto profissionais de segurança
- Em paralelo, foram preparados mecanismos reforçados de segurança cibernética para apoiar o uso defensivo e a resiliência mais ampla do ecossistema
- Sob o Preparedness Framework, este é o primeiro modelo classificado com nível High em tarefas relacionadas a cibersegurança e também o primeiro treinado diretamente para identificar vulnerabilidades de software
- Não há evidência conclusiva de automação ponta a ponta de ataques cibernéticos, mas foi adotada uma abordagem preventiva, com a implantação da pilha de segurança cibernética mais abrangente até agora
- Inclui treinamento de segurança, monitoramento automatizado, acesso baseado em confiança para capacidades avançadas e pipeline de aplicação com inteligência de ameaças
- Considerando a natureza inerentemente dual use da cibersegurança, foi adotada uma abordagem iterativa baseada em evidências para acelerar a capacidade de defensores encontrarem e corrigirem vulnerabilidades, ao mesmo tempo em que atrasa o uso indevido
-
Pesquisa defensiva e programas de proteção do ecossistema
- Lançamento do programa piloto Trusted Access for Cyber, com o objetivo de acelerar a pesquisa em defesa cibernética
- Expansão da beta fechada do agente de pesquisa em segurança Aardvark, a primeira oferta da linha Codex Security
- Em colaboração com mantenedores de open source, oferece varredura gratuita de codebase para projetos amplamente usados (ex.: Next.js)
- Um pesquisador de segurança usou o Codex para descobrir vulnerabilidades divulgadas na semana passada (CVE-2025-59471, CVE-2025-59472)
- Com base no programa de subsídios de cibersegurança de US$ 1 milhão lançado em 2023, a OpenAI adiciona US$ 10 milhões em créditos de API para acelerar a defesa cibernética com seus modelos mais poderosos
- Especialmente voltado a software open source e sistemas de infraestrutura crítica
- Organizações engajadas em pesquisa de segurança de boa-fé podem solicitar créditos de API e suporte pelo Cybersecurity Grant Program
Disponibilidade e detalhes
- O GPT-5.3-Codex está disponível nos planos pagos do ChatGPT e pode ser usado em todos os lugares compatíveis com Codex (app, CLI, extensão de IDE e web)
- O acesso via API está em preparação para ser ativado com segurança
- Graças a melhorias na infraestrutura e na stack de inferência, opera com 25% mais velocidade para usuários do Codex, oferecendo interações e resultados mais rápidos
- Co-projetado, treinado e servido em sistemas NVIDIA GB200 NVL72
Direção futura
- O Codex está avançando além da escrita de código para usar código como ferramenta para operar computadores e concluir tarefas do início ao fim
- Ao expandir a fronteira dos agentes de programação, desbloqueia não apenas construção e implantação de software, mas também uma gama mais ampla de trabalho intelectual, como pesquisa, análise e execução de tarefas complexas
- Partindo do melhor agente de programação, evolui para um colaborador geral no computador, ampliando tanto o que pode ser construído quanto quem pode construir
Appendix: números de benchmark
- Todas as avaliações foram executadas com xhigh reasoning effort
- SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
- Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
- OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
- GDPval (vitória ou empate): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
- Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
- SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%
2 comentários
Antigamente eu preferia mais o lado do Claude, mas recentemente o Codex tem me agradado mais. Espero que evoluam de forma complementar, como iOS e AOS.
Comentários do Hacker News
É interessante ver que GPT‑5.3 Codex e Opus 4.6 estão evoluindo em direções filosoficamente diferentes
O Codex foi projetado como um colaborador interativo que trabalha com intervenção humana no meio do processo, enquanto o Opus minimiza a participação humana, sendo um sistema mais autônomo e voltado a planejamento
Isso parece refletir duas visões reais que os desenvolvedores têm sobre programação com LLM — controle centrado no humano vs delegação completa
Fico curioso para saber se os modelos serão otimizados seguindo essa divisão filosófica ou se surgirão novas abordagens
O Codex tende a pensar por muito mais tempo antes de responder
Com o humano no loop, dá para evitar a maior parte dos problemas dos LLMs, e revisar em unidades pequenas de código é eficiente
Se o Codex cuida do trabalho repetitivo, o desenvolvedor pode focar na lógica central
A abordagem totalmente autônoma é inadequada para codebases grandes, porque a qualidade do código cai no longo prazo
Você enviava a solicitação, ele executava automaticamente em um ambiente de contêiner, e depois só dava para fazer acompanhamento via chat
O Codex parece cada vez mais autônomo, e o Opus mais colaborativo
No fim, há uma grande chance de que as duas abordagens sejam úteis dependendo da situação
Por isso a versão 5.2 foi mais estável do que o Opus 4.5
Parece que a Anthropic correu para lançar o Opus 4.6 para evitar comparações com o GPT‑5.3‑Codex
No Terminal‑Bench 2.0, o Opus 4.6 marcou 65.4 e o GPT‑5.3‑Codex 77.3
Ainda assim, o Codex 5.2 foi o melhor em tarefas complexas, e estou na expectativa pelo 5.3
O GPT‑5.2 Codex ficou em $3244 e o Claude Opus 4.5 em torno de $1485
Pelos resultados do ARC AGI 2, a generalização parece fraca
Tenho dúvidas sobre a afirmação de que o Claude é superior em programação
É impressionante que o GPT‑5.3‑Codex seja o primeiro modelo a ser usado no próprio desenvolvimento
Dizem que a equipe do Codex usou versões iniciais para depurar o próprio pipeline de treinamento
Acho que o motivo de o Claude Code ter crescido também passa por essa cultura de dogfooding
Isso faz pensar de novo se um “soft take‑off” pode mesmo ser possível
O GPT‑5.3‑Codex foi classificado como um modelo de alta capacidade em tarefas de cibersegurança
Ele foi treinado diretamente para detectar vulnerabilidades, mas ainda não há evidência de automação completa de ataques
Mesmo assim, acho que o framework de segurança está ultrapassado
No futuro, o próprio código escrito pelo Codex pode virar uma nova superfície de ataque em termos de ameaça à segurança
O Codex deveria ser projetado para gerar código seguro por padrão
Matéria relacionada: reportagem da NBC News
Assim como a Anthropic, dá a sensação de exibir capacidade técnica sob o rótulo de “pesquisa em segurança”
Fico pensando se esse tipo de erro vai continuar
Antigamente, os laboratórios de IA coordenavam para evitar anúncios simultâneos,
agora fazem anúncios competitivos com 30 minutos de diferença
O Demis talvez seja fraco em briga política, mas deve competir com desempenho
Elon, Sam e Dario já são bons em manobras políticas
2026 parece que vai ser um ano dramático para o setor de IA
Quando a OpenAI anunciava às 10h, Anthropic e Google faziam lançamentos de resposta
Achei interessante o anúncio de que o GPT‑5.3‑Codex melhorou um webgame de forma autônoma
Mas foi uma pena não divulgarem a quantidade de prompts nem de tokens no experimento comparativo
Gostaria de comparar com o clone web de Factorio que eu fiz antes
Eu não sabia que dava para usar modelos desse jeito
Há anos escuto que a IA vai trazer ganho de produtividade de 100x
Mas fico me perguntando se já existe algum programa novo e confiável criado de forma protagonista por LLMs
Os LLMs também só tornam mais rápida a solução de problemas existentes, não resolvem problemas totalmente novos
Por exemplo, num problema de layout de cartões de UI, o Gemini me ajudou muito ao sugerir uma abordagem baseada em coordenadas polares
Não é 100x, mas sinto algo como 2x de ganho de produtividade
Thread relacionada: caso de vibe coding
Por isso, a crítica de que seriam “problemas já resolvidos” não tem grande significado
e em três delas alucinou flags que não existiam
O ChatGPT 5.2 também precisou de várias correções para montar um script de ffmpeg
Talvez o dia em que ele tratar corretamente as quebras de linha no Windows seja o dia da AGI
O motivo de a codebase ser grande parece só uma limitação temporária
Isso soa como reclamação de quem não gosta de progresso
Resultados do Terminal Bench 2.0
Mais importante que a pontuação é a “sensação” da experiência real de programar
Fico curioso se os desenvolvedores se sentem ameaçados por essa mudança
Eu, sinceramente, sinto que sim
Para programadores competitivos pode ser uma ameaça, mas para desenvolvedores comuns menos
Até a chegada da AGI, acho impossível haver automação completa
Ao meu redor há muito mais usuários de Claude do que de Codex
Mas o Codex é bem mais generoso em termos de limites de uso e plano de preços
Mesmo usando por meses no plano de $20, quase nunca se chega ao limite
Sinto que essa diferença prática importa mais do que a qualidade da programação
Antes, no GH Copilot, o Claude era melhor,
mas o Codex tem mais autonomia, então combina melhor com vibe‑coding,
e parece ter ganhado usuários pelo efeito de divulgação no Twitter, LinkedIn etc.
Se você não percebe diferença de qualidade, é natural escolher o mais barato
Também é fácil trocar de plano, então a experiência de uso é muito satisfatória