7 pontos por GN⁺ 2026-02-06 | 2 comentários | Compartilhar no WhatsApp
  • Combina o desempenho de programação do GPT-5.2-Codex com o raciocínio e conhecimento especializado do GPT-5.2 em um único modelo, oferecendo 25% mais velocidade
  • Expande o escopo de trabalho agentic do Codex para tarefas de longa duração e integra ao app Codex uma colaboração interativa em tempo real que permite mudar de direção e incorporar feedback durante a execução
  • Primeiro modelo que participa do próprio desenvolvimento cujo estágio inicial foi usado diretamente para depuração do processo de treinamento, gerenciamento de implantação e diagnóstico de avaliação
  • Alcança desempenho líder do setor em benchmarks importantes como SWE-Bench Pro, Terminal-Bench 2.0 e OSWorld, operando com menos tokens que o modelo anterior
  • Vai além de escrever código e dá suporte ao trabalho intelectual em todo o ciclo de vida do software, incluindo apresentações, planilhas e análise de dados

Visão geral

  • O GPT-5.3-Codex é descrito como “o modelo de programação agentic mais capaz”
  • Combina o desempenho de ponta em programação do GPT-5.2-Codex com as capacidades de raciocínio e conhecimento especializado do GPT-5.2 em um único modelo, com ganho de 25% em velocidade
  • Foi projetado para executar tarefas longas envolvendo pesquisa, uso de ferramentas e execução complexa, mantendo a coordenação sem perder o contexto durante o trabalho
  • Participou de autoaprendizado, implantação e diagnóstico de avaliação usando versões iniciais, tornando-se o primeiro modelo a “acelerar o próprio desenvolvimento”
  • Expande o papel do Codex de “escrever e revisar código” para “quase todo o trabalho que desenvolvedores e especialistas fazem em um computador”

Capacidades agentic de ponta

  • Desempenho em programação

    • Atinge o melhor desempenho no SWE-Bench Pro (avaliação de engenharia de software do mundo real). Diferentemente do SWE-Bench Verified, que testa apenas Python, esse benchmark cobre 4 linguagens, tem maior resistência à contaminação e mais relevância industrial
    • No Terminal-Bench 2.0, também supera com folga o melhor resultado anterior, medindo habilidades de terminal necessárias para agentes de programação
    • Consegue realizar a mesma tarefa com menos tokens em comparação com o modelo anterior
  • Desenvolvimento web

    • A combinação de capacidade de programação de ponta, melhor senso estético e técnicas de compressão permite construir jogos e apps complexos do zero ao longo de vários dias
    • Para testar desenvolvimento web e capacidades agentic de longa duração, foram criados dois jogos: um de corrida e um de mergulho
      • Jogo de corrida: vários pilotos, 8 mapas e itens acionados com a barra de espaço
      • Jogo de mergulho: exploração de diferentes recifes de coral, coleção de enciclopédia de peixes e gerenciamento de oxigênio, pressão da água e perigos
    • Usando a skill "develop web game" e prompts de acompanhamento genéricos predefinidos como "fix the bug" e "improve the game", o modelo iterou melhorias de forma autônoma ao longo de milhões de tokens
    • Na criação de sites do dia a dia, entende melhor a intenção do usuário do que o GPT-5.2-Codex e aplica automaticamente mais funcionalidades e padrões sensatos mesmo com prompts simples ou insuficientes
    • Exemplo de comparação de landing page: o GPT-5.3-Codex exibe automaticamente o plano anual como preço mensal com desconto e gera um carrossel automático de recomendação de conversão com 3 citações de usuários, entregando um resultado mais completo
  • Capacidades além da programação

    • Dá suporte a todo o ciclo de vida do software, incluindo depuração, implantação, monitoramento, redação de PRD, edição de textos, pesquisa com usuários, testes e análise de métricas, em tarefas de engenheiros de software, designers, product managers e cientistas de dados
    • Também se expande para áreas fora do software, como criação de apresentações e análise de dados em planilhas
    • No GDPval (avaliação de tarefas bem definidas de trabalho intelectual em 44 ocupações), alcança 70,9%, igual ao GPT-5.2
      • Inclui entregáveis reais de trabalho, como apresentações e planilhas
    • São apresentados exemplos de entregáveis como slides de consultoria financeira, documentos de treinamento de varejo, planilhas de análise de NPV e PDFs de apresentação de moda
    • No OSWorld-Verified (benchmark de uso agentic de computador em ambiente visual de desktop para tarefas de produtividade), alcança 64,7%, uma alta expressiva em relação aos modelos GPT anteriores (38,2%)
      • A pontuação humana é de cerca de 72%

Colaborador interativo

  • À medida que a capacidade do modelo aumenta, o desafio central passa de “o que o agente consegue fazer” para quão facilmente humanos conseguem instruir e supervisionar vários agentes trabalhando em paralelo
  • O app Codex facilita o gerenciamento e a instrução de agentes e, no GPT-5.3-Codex, oferece maior interatividade
  • Atualiza com frequência decisões importantes e o andamento do trabalho, para que o usuário possa fazer perguntas em tempo real, discutir a abordagem e ajustar a direção sem esperar pelo resultado final
  • Explica o que está fazendo, responde a feedback e mantém o usuário dentro do loop do início ao fim
  • Caminho de configuração: Settings > General > Follow-up behavior para ativar orientação durante a execução do modelo

Treinamento e implantação do GPT-5.3-Codex com o uso do Codex

  • As melhorias rápidas mais recentes do Codex foram construídas sobre projetos de pesquisa de meses a anos em toda a OpenAI
  • Muitos pesquisadores e engenheiros da OpenAI dizem que a forma atual de trabalhar é fundamentalmente diferente de dois meses atrás
  • As versões iniciais do GPT-5.3-Codex já mostravam grande capacidade, e a equipe usou essas versões para apoiar melhorias de treinamento e a implantação das versões posteriores
  • Exemplos de uso pela equipe de pesquisa

    • O Codex foi usado no monitoramento e depuração de execuções de treinamento deste lançamento
    • Indo além da depuração de problemas de infraestrutura, foram criadas aplicações ricas para rastrear padrões ao longo do processo de treinamento, analisar profundamente a qualidade das interações, sugerir correções e identificar com precisão diferenças de comportamento em relação a modelos anteriores
  • Exemplos de uso pela equipe de engenharia

    • O Codex foi usado na otimização e adaptação do harness para o GPT-5.3-Codex
    • Quando surgiram edge cases estranhos que afetavam usuários, o Codex ajudou a identificar bugs de renderização de contexto e a analisar a causa raiz de baixa taxa de acerto de cache
    • Durante o lançamento, continuou sendo usado para escalonamento dinâmico de clusters de GPU e estabilização da latência diante de picos de tráfego
  • Exemplos de uso em testes alpha

    • Um pesquisador quis entender quanto trabalho adicional o GPT-5.3-Codex realizava por turno e qual era a diferença de produtividade
    • O GPT-5.3-Codex criou vários classificadores simples com regex para estimar frequência de perguntas de esclarecimento, respostas positivas e negativas e progresso das tarefas, executou isso em larga escala sobre logs completos de sessão e gerou um relatório conclusivo
    • A satisfação de quem construiu com Codex foi maior, e o agente mostrou melhor entendimento de intenção, mais progresso por turno e menos perguntas de esclarecimento
  • Construção de pipeline de dados

    • Os dados dos testes alpha eram muito diferentes dos modelos anteriores, causando muitos resultados anômalos e contraintuitivos
    • Um cientista de dados construiu um novo pipeline com o GPT-5.3-Codex e produziu visualizações muito mais ricas do que as ferramentas padrão de dashboard
    • Ao analisar conjuntamente os resultados com o Codex, conseguiu resumir os principais insights de milhares de pontos de dados em menos de 3 minutos

Garantindo a fronteira de segurança cibernética

  • Nos últimos meses, o desempenho do modelo em tarefas de cibersegurança melhorou de forma significativa, beneficiando tanto desenvolvedores quanto profissionais de segurança
  • Em paralelo, foram preparados mecanismos reforçados de segurança cibernética para apoiar o uso defensivo e a resiliência mais ampla do ecossistema
  • Sob o Preparedness Framework, este é o primeiro modelo classificado com nível High em tarefas relacionadas a cibersegurança e também o primeiro treinado diretamente para identificar vulnerabilidades de software
  • Não há evidência conclusiva de automação ponta a ponta de ataques cibernéticos, mas foi adotada uma abordagem preventiva, com a implantação da pilha de segurança cibernética mais abrangente até agora
    • Inclui treinamento de segurança, monitoramento automatizado, acesso baseado em confiança para capacidades avançadas e pipeline de aplicação com inteligência de ameaças
  • Considerando a natureza inerentemente dual use da cibersegurança, foi adotada uma abordagem iterativa baseada em evidências para acelerar a capacidade de defensores encontrarem e corrigirem vulnerabilidades, ao mesmo tempo em que atrasa o uso indevido
  • Pesquisa defensiva e programas de proteção do ecossistema

    • Lançamento do programa piloto Trusted Access for Cyber, com o objetivo de acelerar a pesquisa em defesa cibernética
    • Expansão da beta fechada do agente de pesquisa em segurança Aardvark, a primeira oferta da linha Codex Security
    • Em colaboração com mantenedores de open source, oferece varredura gratuita de codebase para projetos amplamente usados (ex.: Next.js)
      • Um pesquisador de segurança usou o Codex para descobrir vulnerabilidades divulgadas na semana passada (CVE-2025-59471, CVE-2025-59472)
    • Com base no programa de subsídios de cibersegurança de US$ 1 milhão lançado em 2023, a OpenAI adiciona US$ 10 milhões em créditos de API para acelerar a defesa cibernética com seus modelos mais poderosos
      • Especialmente voltado a software open source e sistemas de infraestrutura crítica
      • Organizações engajadas em pesquisa de segurança de boa-fé podem solicitar créditos de API e suporte pelo Cybersecurity Grant Program

Disponibilidade e detalhes

  • O GPT-5.3-Codex está disponível nos planos pagos do ChatGPT e pode ser usado em todos os lugares compatíveis com Codex (app, CLI, extensão de IDE e web)
  • O acesso via API está em preparação para ser ativado com segurança
  • Graças a melhorias na infraestrutura e na stack de inferência, opera com 25% mais velocidade para usuários do Codex, oferecendo interações e resultados mais rápidos
  • Co-projetado, treinado e servido em sistemas NVIDIA GB200 NVL72

Direção futura

  • O Codex está avançando além da escrita de código para usar código como ferramenta para operar computadores e concluir tarefas do início ao fim
  • Ao expandir a fronteira dos agentes de programação, desbloqueia não apenas construção e implantação de software, mas também uma gama mais ampla de trabalho intelectual, como pesquisa, análise e execução de tarefas complexas
  • Partindo do melhor agente de programação, evolui para um colaborador geral no computador, ampliando tanto o que pode ser construído quanto quem pode construir

Appendix: números de benchmark

  • Todas as avaliações foram executadas com xhigh reasoning effort
  • SWE-Bench Pro(Public): GPT-5.3-Codex 56.8% / GPT-5.2-Codex 56.4% / GPT-5.2 55.6%
  • Terminal-Bench 2.0: GPT-5.3-Codex 77.3% / GPT-5.2-Codex 64.0% / GPT-5.2 62.2%
  • OSWorld-Verified: GPT-5.3-Codex 64.7% / GPT-5.2-Codex 38.2% / GPT-5.2 37.9%
  • GDPval (vitória ou empate): GPT-5.3-Codex 70.9% / GPT-5.2 70.9%(high)
  • Cybersecurity Capture The Flag Challenges: GPT-5.3-Codex 77.6% / GPT-5.2-Codex 67.4% / GPT-5.2 67.7%
  • SWE-Lancer IC Diamond: GPT-5.3-Codex 81.4% / GPT-5.2-Codex 76.0% / GPT-5.2 74.6%

2 comentários

 
treestae 2026-02-06

Antigamente eu preferia mais o lado do Claude, mas recentemente o Codex tem me agradado mais. Espero que evoluam de forma complementar, como iOS e AOS.

 
GN⁺ 2026-02-06
Comentários do Hacker News
  • É interessante ver que GPT‑5.3 Codex e Opus 4.6 estão evoluindo em direções filosoficamente diferentes
    O Codex foi projetado como um colaborador interativo que trabalha com intervenção humana no meio do processo, enquanto o Opus minimiza a participação humana, sendo um sistema mais autônomo e voltado a planejamento
    Isso parece refletir duas visões reais que os desenvolvedores têm sobre programação com LLM — controle centrado no humano vs delegação completa
    Fico curioso para saber se os modelos serão otimizados seguindo essa divisão filosófica ou se surgirão novas abordagens

    • Do ponto de vista de UX, parece até o contrário
      O Codex tende a pensar por muito mais tempo antes de responder
    • Tenho certeza de que a abordagem do Codex vai prevalecer
      Com o humano no loop, dá para evitar a maior parte dos problemas dos LLMs, e revisar em unidades pequenas de código é eficiente
      Se o Codex cuida do trabalho repetitivo, o desenvolvedor pode focar na lógica central
      A abordagem totalmente autônoma é inadequada para codebases grandes, porque a qualidade do código cai no longo prazo
    • Na prática, o Codex no começo saiu como um webapp com quase nenhuma interação
      Você enviava a solicitação, ele executava automaticamente em um ambiente de contêiner, e depois só dava para fazer acompanhamento via chat
    • Dá a sensação de que os dois modelos estão convergindo para o território um do outro
      O Codex parece cada vez mais autônomo, e o Opus mais colaborativo
      No fim, há uma grande chance de que as duas abordagens sejam úteis dependendo da situação
    • O Codex parece um modelo que raciocina mais do que o Opus
      Por isso a versão 5.2 foi mais estável do que o Opus 4.5
  • Parece que a Anthropic correu para lançar o Opus 4.6 para evitar comparações com o GPT‑5.3‑Codex
    No Terminal‑Bench 2.0, o Opus 4.6 marcou 65.4 e o GPT‑5.3‑Codex 77.3

    • Benchmarks de IA não combinam muito bem com a experiência real
      Ainda assim, o Codex 5.2 foi o melhor em tarefas complexas, e estou na expectativa pelo 5.3
    • É surpreendente que dois modelos de ponta para programação tenham sido lançados no mesmo dia
    • O teste foi feito no modo xhigh reasoning, então o custo foi o dobro
      O GPT‑5.2 Codex ficou em $3244 e o Claude Opus 4.5 em torno de $1485
    • Parece que o Codex sofreu overfitting para o Terminal Bench
      Pelos resultados do ARC AGI 2, a generalização parece fraca
    • Pela minha experiência, a linha GPT foi muito melhor que o Claude em programação agentic
      Tenho dúvidas sobre a afirmação de que o Claude é superior em programação
  • É impressionante que o GPT‑5.3‑Codex seja o primeiro modelo a ser usado no próprio desenvolvimento
    Dizem que a equipe do Codex usou versões iniciais para depurar o próprio pipeline de treinamento
    Acho que o motivo de o Claude Code ter crescido também passa por essa cultura de dogfooding

    • Não foge muito do que os pesquisadores do projeto AI‑2027 previram
    • Parece que o modelo entrou numa fase inicial de autoaperfeiçoamento
      Isso faz pensar de novo se um “soft take‑off” pode mesmo ser possível
  • O GPT‑5.3‑Codex foi classificado como um modelo de alta capacidade em tarefas de cibersegurança
    Ele foi treinado diretamente para detectar vulnerabilidades, mas ainda não há evidência de automação completa de ataques
    Mesmo assim, acho que o framework de segurança está ultrapassado
    No futuro, o próprio código escrito pelo Codex pode virar uma nova superfície de ataque em termos de ameaça à segurança
    O Codex deveria ser projetado para gerar código seguro por padrão

    • Fico curioso se “high‑capability” significa uma alegação de que ele é mais forte que uma equipe de especialistas com doutorado
      Matéria relacionada: reportagem da NBC News
    • Parece mais uma estratégia típica da OpenAI para passar a impressão de que está se aproximando da AGI outra vez
      Assim como a Anthropic, dá a sensação de exibir capacidade técnica sob o rótulo de “pesquisa em segurança”
    • Hoje em dia tem a piada de que projetos vibe-coded deixam a chave de API exposta direto na página web
      Fico pensando se esse tipo de erro vai continuar
    • Dizem “fortalecimento de segurança”, mas no fim talvez seja só adicionar ACL e atualizar regex
  • Antigamente, os laboratórios de IA coordenavam para evitar anúncios simultâneos,
    agora fazem anúncios competitivos com 30 minutos de diferença

    • Agora virou uma disputa feroz de vez
      O Demis talvez seja fraco em briga política, mas deve competir com desempenho
      Elon, Sam e Dario já são bons em manobras políticas
      2026 parece que vai ser um ano dramático para o setor de IA
    • Também há ajuste de calendário para competir com modelos locais durante o Ano-Novo Lunar chinês
    • Esse tipo de disputa já vem desde a era do GPT‑4
      Quando a OpenAI anunciava às 10h, Anthropic e Google faziam lançamentos de resposta
    • Fico pensando se esse tipo de coordenação não poderia ser ilegal como prática de cartel
  • Achei interessante o anúncio de que o GPT‑5.3‑Codex melhorou um webgame de forma autônoma
    Mas foi uma pena não divulgarem a quantidade de prompts nem de tokens no experimento comparativo
    Gostaria de comparar com o clone web de Factorio que eu fiz antes

    • Esse demo é realmente muito legal
      Eu não sabia que dava para usar modelos desse jeito
  • Há anos escuto que a IA vai trazer ganho de produtividade de 100x
    Mas fico me perguntando se já existe algum programa novo e confiável criado de forma protagonista por LLMs

    • Nos anos 1930, quando surgiram as calculadoras, também diziam que empregos de contabilidade desapareceriam, mas na verdade houve mais especialização
      Os LLMs também só tornam mais rápida a solução de problemas existentes, não resolvem problemas totalmente novos
      Por exemplo, num problema de layout de cartões de UI, o Gemini me ajudou muito ao sugerir uma abordagem baseada em coordenadas polares
      Não é 100x, mas sinto algo como 2x de ganho de produtividade
      Thread relacionada: caso de vibe coding
    • A maioria dos desenvolvedores repete a solução de problemas já conhecidos em vez de problemas novos
      Por isso, a crítica de que seriam “problemas já resolvidos” não tem grande significado
    • Seria legal ver grandes projetos de jogos open source publicados, como OpenGTA, OpenFIFA etc.
    • O Opus 4.5 resolveu um problema simples de git só na quinta tentativa,
      e em três delas alucinou flags que não existiam
      O ChatGPT 5.2 também precisou de várias correções para montar um script de ffmpeg
      Talvez o dia em que ele tratar corretamente as quebras de linha no Windows seja o dia da AGI
    • Será que existe algum programa escrito por humanos que um LLM jamais conseguiria escrever?
      O motivo de a codebase ser grande parece só uma limitação temporária
      Isso soa como reclamação de quem não gosta de progresso
  • Resultados do Terminal Bench 2.0

    Modelo Pontuação
    OpenAI Codex 5.3 77.3
    Anthropic Opus 4.6 65.4
    • Parece que a competição por benchmarks (benchmaxxing) está perdendo relevância
      Mais importante que a pontuação é a “sensação” da experiência real de programar
    • O desempenho no mundo real é muito mais decepcionante do que os benchmarks
  • Fico curioso se os desenvolvedores se sentem ameaçados por essa mudança
    Eu, sinceramente, sinto que sim

    • A IA ainda carece de capacidade de abstração
      Para programadores competitivos pode ser uma ameaça, mas para desenvolvedores comuns menos
    • Se você ainda não aprendeu a usar bem a IA, faz sentido se sentir ameaçado
    • Ainda é preciso que humanos revisem o código diretamente
      Até a chegada da AGI, acho impossível haver automação completa
    • Como no paradoxo de Jevons, a eficiência pode aumentar sem que os empregos desapareçam
  • Ao meu redor há muito mais usuários de Claude do que de Codex
    Mas o Codex é bem mais generoso em termos de limites de uso e plano de preços
    Mesmo usando por meses no plano de $20, quase nunca se chega ao limite
    Sinto que essa diferença prática importa mais do que a qualidade da programação

    • Recentemente mudei para um agente de terminal baseado em CLI, e o Codex foi muito melhor
      Antes, no GH Copilot, o Claude era melhor,
      mas o Codex tem mais autonomia, então combina melhor com vibe‑coding,
      e parece ter ganhado usuários pelo efeito de divulgação no Twitter, LinkedIn etc.
    • Eu também acho que os benefícios do plano do Codex são maiores
      Se você não percebe diferença de qualidade, é natural escolher o mais barato
    • Mesmo rodando sessões multiagente o dia inteiro, quase nunca bato no limite
      Também é fácil trocar de plano, então a experiência de uso é muito satisfatória