5 pontos por GN⁺ 2025-11-20 | 2 comentários | Compartilhar no WhatsApp
  • O GPT‑5.1‑Codex‑Max, recém-lançado pela OpenAI, é o mais novo modelo de codificação agentic, projetado para executar tarefas de desenvolvimento complexas e de longo prazo, disponível no ambiente Codex
  • Com a nova tecnologia de "compaction", ele processa projetos na escala de milhões de tokens de forma consistente, atravessando múltiplas janelas de contexto
  • A eficiência de tokens foi aprimorada, alcançando melhor desempenho com 30% menos tokens no mesmo nível de raciocínio, com expectativa de redução de custos
  • Pode trabalhar de forma independente por longos períodos e executar refatoração e depuração por mais de 24 horas
  • Reforça o sandbox de segurança e o sistema de monitoramento de cibersegurança, evoluindo como um parceiro de programação com IA mais seguro

Introdução ao GPT‑5.1‑Codex‑Max

  • O GPT‑5.1‑Codex‑Max é o novo modelo de codificação agentic da OpenAI, uma versão atualizada de um modelo baseado em raciocínio treinado em tarefas de diversas áreas, como engenharia de software, matemática e pesquisa
    • Pode ser usado imediatamente no Codex CLI, extensões de IDE, nuvem e ambientes de revisão de código
    • O acesso via API será disponibilizado em breve
  • O modelo oferece melhorias em velocidade, inteligência e eficiência de tokens, atuando como um parceiro de programação mais confiável em todo o ciclo de desenvolvimento
  • Por meio do processo de Compaction, ele lida de forma consistente com trabalhos na escala de milhões de tokens, atravessando múltiplas janelas de contexto

Desempenho de ponta em programação

  • Foi treinado com tarefas reais de engenharia de software (geração de PR, revisão de código, programação de frontend, Q&A) e apresenta desempenho superior em várias avaliações em comparação com o modelo anterior
  • É o primeiro modelo do Codex a funcionar em ambiente Windows, e também inclui melhorias para elevar a colaboração com o Codex CLI
  • Além dos ganhos em benchmark, também foram confirmados resultados melhores na usabilidade real

Velocidade e eficiência de custo

  • No SWE‑bench Verified, alcançou desempenho superior ao GPT‑5.1‑Codex usando 30% menos tokens no mesmo nível de raciocínio
  • O modo de raciocínio "xhigh" oferece melhor qualidade ao dedicar mais tempo ao pensamento, enquanto o modo "medium" é recomendado para tarefas gerais
  • O ganho em eficiência de tokens deve se traduzir em redução de custos para desenvolvedores
    • Ex.: o GPT‑5.1‑Codex‑Max gera designs de frontend com funcionalidade e estética semelhantes por um custo muito menor

Tarefas de longa duração

  • Com o recurso de Compaction, é possível executar refatorações complexas e loops de agente de longa duração que ultrapassam os limites de contexto
    • Quando a sessão atinge o limite, ele faz automaticamente o compact (compactação), preserva o trabalho em andamento e obtém um novo contexto
  • Em avaliações internas, houve casos confirmados de execução contínua por mais de 24 horas
    • Ao corrigir falhas de teste e iterar na implementação, chegou por fim a resultados bem-sucedidos
  • A capacidade de manter consistência no longo prazo é uma base essencial para avançar rumo a sistemas de IA gerais e confiáveis

Construindo agentes de IA seguros e confiáveis

  • O desempenho em avaliações de raciocínio de longo prazo melhorou significativamente, entregando resultados melhores em cibersegurança e tarefas de programação de longa duração
  • Embora ainda não alcance o nível "High" segundo o Cybersecurity Preparedness Framework, já apresenta o desempenho em cibersegurança mais forte entre os modelos lançados até agora
    • O uso defensivo vem sendo reforçado por meio de iniciativas como o programa Aardvark
  • Um monitoramento dedicado de cibersegurança detecta e bloqueia tentativas de abuso, e atividades suspeitas são encaminhadas ao sistema de revisão de políticas
  • O Codex é executado por padrão em um sandbox de segurança, com acesso a arquivos e uso de rede limitados
    • Ao acessar a internet, existe risco de prompt injection
  • Os desenvolvedores precisam revisar o trabalho do agente antes da implantação
    • O Codex registra logs de terminal, chamadas de ferramentas e resultados de testes, atuando como apoio, e não substituto da revisão humana
  • Como os recursos de cibersegurança podem ser usados tanto para defesa quanto para ataque, a OpenAI está combinando implantação gradual e reforço de medidas de proteção

Disponibilidade e lançamento

  • O GPT‑5.1‑Codex‑Max está disponível no Codex para os planos ChatGPT Plus, Pro, Business, Edu e Enterprise
  • Também será disponibilizado em breve para desenvolvedores que usam o Codex CLI com chave de API
  • A partir de hoje, o GPT‑5.1‑Codex‑Max substitui o GPT‑5.1‑Codex como modelo padrão no Codex
    • O GPT‑5.1 é um modelo de uso geral, enquanto o Codex‑Max é recomendado especificamente para tarefas de codificação agentic

Conclusão

  • O GPT‑5.1‑Codex‑Max representa um grande avanço em persistência em tarefas de codificação de longo prazo, gestão de fluxos de trabalho complexos e implementação de alta qualidade
  • Em conjunto com melhorias no CLI, extensões de IDE, integração com a nuvem e ferramentas de revisão de código, isso levou a um aumento de 70% na produtividade de engenharia
    • 95% dos engenheiros internos da OpenAI usam o Codex semanalmente
  • Com a expansão das capacidades agentic, estamos entrando em uma nova etapa da produtividade em desenvolvimento

Apêndice: resultados de avaliação do modelo

  • SWE‑bench Verified (n=500) : GPT‑5.1‑Codex 73.7% → GPT‑5.1‑Codex‑Max 77.9%
  • SWE‑Lancer IC SWE: 66.3% → 79.9%
  • Terminal‑Bench 2.0: 52.8% → 58.1%

2 comentários

 
kaydash 2025-11-27

Codex, vamos nos encontrar na MS AOIA 😊

 
GN⁺ 2025-11-20
Comentário no Hacker News
  • Tenho usado bastante Claude e Codex recentemente
    O Claude quase ignora as instruções (por exemplo, CLAUDE.md), enquanto o Codex segue tudo de forma obsessivamente fiel, como se não quisesse deixar passar nem uma letra
    Por exemplo, se houver um erro de digitação num teste, o Claude corrige dizendo “isso claramente é um typo”, mas o Codex vai ao extremo de reescrever o motor V8 e quebrar a aritmética
    Então, me parece que o Claude é mais adequado para iterações rápidas, enquanto o Codex serve melhor para trabalhos longos em que a precisão é importante

    • Também fiquei profundamente impressionado com o Codex. Num projeto de simulador de voo em que estou há 6 meses, precisei migrar o sistema de coordenadas para ECEF, o que exigiu reescrever todo o motor de física e o sistema gráfico
      Dei apenas um parágrafo de instruções, e ele fez quase tudo perfeitamente em 45 minutos. Quando pedi um relatório resumido, vi que realmente seguiu todas as instruções sem deixar passar uma letra sequer
    • Um amigo pediu ao Claude para sempre chamá-lo de “Mr Tinkleberry”, e disse que consegue detectar quando as instruções são ignoradas sempre que o Claude esquece isso
    • O Codex age como se fosse “o último programador da Terra”. Ele tenta cumprir o objetivo aconteça o que acontecer
      Essa postura é boa para quem o trata como uma caixa-preta, mas eu quero um colaborador com bom senso
      Isso parece mostrar a diferença entre como a OpenAI e a Anthropic enxergam o futuro da IA
    • A analogia do “corrigir o teste 1+1===3” é realmente excelente. Essa única frase explica a diferença fundamental entre a linha GPT e a linha Claude
      Os modelos GPT são fracos em programação improvisada, mas se destacam em tarefas com requisitos claros
    • O que me frustrou no Codex foi que ele praticamente não consegue apagar código e sempre faz a base crescer desnecessariamente
      Tanto em Python quanto em TypeScript havia código defensivo demais, como .getattr() e typeof
  • Somos bons em treinar modelos, mas ruins em dar nomes 😄
    A nova versão alcançou SOTA com 77,9% no SWE-Bench-Verified, 79,9% no SWE-Lancer e 58,1% no TerminalBench 2.0
    Ela consegue trabalhar por longos períodos comprimindo várias janelas de contexto, com 30% de melhoria na eficiência de tokens
    Gostaria de ouvir opiniões

    • Estou usando o GPT‑5.1‑Codex‑High agora, mas tenho curiosidade sobre como a versão Max difere em custo e limite de créditos
      Se há “economia de tokens”, parece que deveria ser mais barato, mas o nome “Max” sugere algo caro
    • O Codex é um ótimo produto, então até um upgrade incremental já é bem-vindo. Pretendo testar em breve
    • Gostaria de saber se o issue #6426 foi resolvido.
      O 5.1 gastava tokens demais, então voltei para o 5.0
    • Seria bom poder usar esse modelo também na interface de Chat
    • Gosto do recurso de subagentes do Claude Code. Ele é útil para gerenciar contexto em codebases complexas
      Consultei estes agentes de exemplo e seria ótimo ter algo assim também no Codex CLI
  • Hoje comparei o GPT‑5.1‑Codex‑Max com o Gemini 3 Pro no CLI
    O Gemini é difícil de lidar como colaborador. Você faz uma pergunta, e ele tenta adivinhar sua intenção e já sai escrevendo código
    Já o Codex responde direto à pergunta
    Em qualidade de código, o Gemini tinha um estilo mais fácil para humanos lerem, mas o Codex foi muito superior em planejamento e precisão de implementação
    O Gemini teve problemas como alucinação de nomes de colunas de banco, funcionalidades faltando e falta de integração
    No geral, o Codex foi o vencedor claro

    • O Google se gabou de que o Gemini 3 era o melhor em todos os benchmarks, mas isso mostra que, na prática, não é bem assim
    • Ao usar o Gemini, é preciso manter a configuração de temperature no valor padrão 1.0. Se baixar, surgem loops ou queda de desempenho
      Consulte a documentação oficial
    • Comigo também acontece: mesmo quando digo ao Gemini para “não escrever código”, ele continua reescrevendo código
  • A OpenAI frequentemente lança seus modelos logo antes de anúncios da concorrência
    O GPT‑4o também foi anunciado um dia antes do Google I/O. Este Codex provavelmente também é só um update incremental

    • GPT‑5.1 / Codex já estava à frente do Gemini 3 nos benchmarks, e esta atualização amplia ainda mais a vantagem
    • A Anthropic também lançou o Opus 4.1 perto do lançamento do GPT‑5. Agora a competição ficou acirrada
    • Graças a essa competição, o progresso está acelerando. Temos que agradecer pela concorrência saudável
    • O Gemini está avançando sobre o mercado, e a OpenAI sabe disso
    • Essa disputa pelo timing dos anúncios já está ficando familiar
  • Olhando o exemplo de renderização SVG,
    o nível medium parece bem equilibrado e mostra diferenças de estilo intencionais entre high e low
    Comparações assim ajudam a perceber a consistência criativa do modelo

    • Mas esse tipo de benchmark de saída SVG parece estar perdendo relevância. Pode muito bem ser resultado de ajuste fino especializado com RLHF
  • Eu queria que as empresas gastassem nem que fosse 1% do esforço que colocam em treinar modelos para melhorar a experiência de pagamento e login
    O Claude praticamente não tem sistema de login, e a OpenAI precisa corrigir o bug do Codex CLI (#2798)
    O Google tornou seus produtos e sua estrutura de cobrança complicados demais. Tudo deveria ser unificado numa única página de preços

    • Eu também desisti por causa do sistema de pagamento do Google. Nem sei o que é Google Payments, e um erro de verificação de conta bloqueou a conta da minha empresa, que existia havia 18 anos
    • A linha de produtos do Google é uma bagunça. Vertex AI, AI Studio, Maker Studio, Gemini... a documentação se sobrepõe e não é clara
    • A opção de opt-out do uso de dados para treinamento no Gemini desapareceu, e também não está claro quais contas entram no treinamento
      Nem contas Workspace parecem seguras. É preciso ler os ToS com atenção
      Neste momento, sinto que a OpenAI oferece uma experiência do cliente muito mais confiável
    • Suspeito que o Gemini 3 Pro tenha sido pós-treinado com dados sem autorização
      O issue #12121 também menciona essa controvérsia
    • O Claude é inconveniente no login porque não oferece opção de senha nem passkey
  • As frases “um novo passo para se tornar um parceiro de programação confiável” e “um modelo otimizado para trabalhos longos” soam contraditórias
    Se é um parceiro, deveria trabalhar junto em ciclos curtos; ficar trabalhando sozinho por muito tempo não é parceria

    • O Codex é excessivamente autônomo em trabalhos longos e toma abordagens arriscadas, como reescrever até bibliotecas TLS
    • (Membro da equipe Codex) Nosso objetivo é um modelo em estilo colega de equipe que possa fazer tanto iterações curtas quanto tarefas longas delegadas
      O gráfico de tokens no blog oficial mostra essa direção
    • Também recomendo o modelo Composer do Cursor. Ele é muito rápido, e mesmo que o resultado fique aquém, dá para tentar de novo em 30 segundos
  • Fiquei impressionado com a velocidade do modo plan do Codex. A qualidade do código também pareceu boa
    Mas quando eu disse “rode npm run build e corrija todos os problemas”, ele saiu instalando pacotes relacionados ao eslint sem controle
    O Claude Code terminou a mesma tarefa em menos de 1 minuto. O Codex ainda parece instável

    • Fiquei curioso sobre o que é o modo plan
  • O Codex é forte em tarefas de backend ou centradas em dados, mas tende a dar resultados estranhos em trabalhos simples de UI

  • No último fim de semana usei Claude e Codex juntos, e o Codex teve resultados muito melhores em código TypeScript de física/gráficos
    De milhares de linhas, só algumas centenas foram escritas por mim.
    Agora pretendo pedir ao novo Codex para revisar o trabalho do Codex anterior