16 pontos por GN⁺ 2025-09-17 | 6 comentários | Compartilhar no WhatsApp
  • GPT-5-Codex é um modelo otimizado para engenharia de software real, com suporte desde sessões curtas e interativas até trabalho autônomo de longa duração
  • O novo modelo traz recursos de revisão de código aprimorados, detectando falhas importantes mais cedo por meio de exploração de dependências, execução de testes e comparação entre intenção e implementação
  • Também apresenta excelente desempenho em grandes refatorações de código e ajusta dinamicamente o tempo de trabalho conforme a necessidade do usuário
  • O Codex CLI e a extensão para IDE foram reformulados para fluxos de trabalho com agentes, com melhorias como anexos de imagem, acompanhamento do progresso da tarefa, busca na web e integração com MCP
  • Com integração ao GitHub, agora é possível fazer revisão automática de PRs e até sugerir correções, reduzindo a carga de revisão da equipe e aumentando a confiabilidade de release
  • O Codex agora está incluído nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise

GPT-5-Codex

  • O GPT-5-Codex é um modelo especializado em tarefas complexas de engenharia do mundo real (build de projetos, adição de recursos, grandes refatorações, depuração e revisão de código)
    • A capacidade de seguir instruções em AGENTS.md foi aprimorada, permitindo obter os resultados desejados sem explicações longas sobre estilo ou limpeza de código
  • Ele ajusta dinamicamente o tempo de raciocínio de acordo com a dificuldade da tarefa
    • Responde rapidamente a solicitações simples e, em trabalhos maiores, pode operar de forma independente por horas, refinando os resultados
  • É otimizado para revisão de código, realizando validação precisa por meio da exploração do codebase, análise de dependências e execução de testes
    • Na verificação de commits em projetos open source, as revisões do GPT-5-Codex foram avaliadas como mais confiáveis
  • Também é forte em tarefas de frontend e, na nuvem, pode usar entrada por imagem para revisar visualmente o progresso e compartilhar resultados em screenshots
  • Enquanto o GPT-5 é um modelo de uso geral, o GPT-5-Codex foi projetado para tarefas de programação com agentes no ambiente Codex

Atualizações do Codex

  • O Codex CLI e a extensão para IDE foram redesenhados com foco na experiência de programação com agentes
    • No CLI, agora é possível usar anexos de imagem, gerenciamento de To-Do do progresso da tarefa e conexão com sistemas externos
    • A UI do terminal foi melhorada para facilitar a visualização de chamadas de ferramentas e diffs
    • O modo de aprovação foi simplificado para oferecer segurança e praticidade ao mesmo tempo
  • A extensão para IDE funciona em VS Code, Cursor e outros, fornecendo resultados mais rápidos com prompts mais curtos com base em arquivos e trechos de código selecionados
    • Ela permite alternar de forma fluida entre ambientes locais e na nuvem, além de acompanhar tarefas em andamento e revisar tarefas concluídas
  • No ambiente de nuvem, foram reforçados os recursos de ganho de velocidade com cache (redução de 90%), configuração automática de ambiente e controle de acesso à internet
    • Imagens podem ser usadas em especificações de design de UI ou relatos de bugs, e o Codex pode abrir seu próprio navegador para verificar resultados e anexar screenshots a PRs
  • A integração com GitHub oferece suporte a revisão automática de PRs e sugestões de correção
    • É possível solicitar uma revisão específica com o comando @codex review
    • Dentro da OpenAI, o Codex já faz a pré-revisão da maioria dos PRs e detectou centenas de problemas antecipadamente

Segurança e proteção

  • O Codex é executado por padrão em um ambiente sandbox, com acesso à rede restrito
    • É possível controlar, com base em aprovação, se comandos arriscados podem ser executados, e permitir apenas domínios confiáveis
  • Desenvolvedores podem ajustar o nível de segurança conforme o ambiente, e o Codex fornece logs e resultados de testes para cada tarefa para ajudar na validação
  • Recomenda-se usá-lo como revisor auxiliar, e não como substituto da revisão humana
  • O GPT-5-Codex é classificado como um modelo com alta capacidade nos domínios de biologia e química, por isso mecanismos de segurança são aplicados

Preço e disponibilidade

  • O Codex está incluído nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise
    • Plus/Edu/Business são adequados para 1 a 2 sessões por semana, enquanto o Pro oferece suporte a semanas de desenvolvimento em tempo integral
  • O plano Business permite compra adicional de créditos, e o Enterprise opera com um pool compartilhado de créditos
  • O GPT-5-Codex também será disponibilizado em breve para usuários de chave de API do Codex CLI
  • O Codex continuará evoluindo como um parceiro de programação mais rápido e confiável, consolidando-se como uma ferramenta para ajudar equipes a executar projetos ambiciosos

6 comentários

 
aeolian21 2025-09-18

A capacidade de resolver problemas em questões que exigem considerar vários contextos é fraca e, no geral, ele usa muito código com padrões de design desnecessários. Passa fortemente a impressão de que, no treinamento, foram usados principalmente códigos de exemplo educacionais, e não código real de produção.
No geral, há uma diferença de desempenho considerável em relação ao Gemini.

 
bluekai17 2025-09-18

Comparando com o Claude Code, por enquanto o Claude Code ainda parece ser um pouco mais utilizável?

 
kuthia 2025-09-18

No fim, uma boa ferramenta de IA oferece uma boa experiência ao usuário quando leva em conta o nível de repertório cultural (?) do usuário e, ainda assim, garante um certo nível de qualidade no resultado?
É interessante que usuários de todos os níveis esperem, sem exceção, algo melhor das ferramentas de IA.

 
slowandsnow 2025-09-17

Acho o Claude tão inconveniente que estou pensando em mudar.

 
shakespeares 2025-09-18

Há algo que esteja te incomodando?

 
GN⁺ 2025-09-17
Comentários no Hacker News
  • Confirmou que o tamanho do prompt do novo modelo caiu para quase a metade do anterior (10 KB vs 23 KB) (recursos relacionados: exemplo de prompt anterior, exemplo de prompt mais antigo)
    No benchmark SWE-bench, o desempenho é parecido com o do gpt-5 atual, mas o gpt-5-codex parece ter sido reforçado principalmente em refatoração de código (33,9% -> 51,3% em benchmark interno)
    Recentemente tentei uma grande refatoração com o Codex CLI (gpt-5-high), separando várias bibliotecas internas em pacotes, mas o modelo frequentemente apresentava bugs no processo de apagar e reescrever arquivos (como casos em que arquivos importantes sumiam)
    Pessoalmente, eu preferia a abordagem de simplesmente copiar os arquivos e ajustá-los por pacote, mas nessa melhoria parece que aplicaram um tool calling melhor
    Além disso, dizem que o novo modelo é mais "steerable" (mais controlável explicitamente), e na minha experiência o Codex CLI (gpt-5) já era bem mais fácil de controlar do que o Claude Code, então qualquer melhoria extra é muito bem-vinda

    • Concordo que a pontuação no SWE-bench é parecida entre gpt-5 e gpt-5-codex, mas a própria avaliação do SWE-bench é muito limitada
      Mesmo com a mesma nota, a experiência real de uso pode ser bem diferente
      Também compartilho uma thread no X (antigo Twitter) que trata em detalhes dos fatores que o SWE-bench não consegue medir: link

    • O fato de ser "mais steerable" pode, na verdade, ser uma desvantagem
      Porque ele também pode seguir o prompt de forma excessivamente literal
      No fim, isso exige uma compreensão melhor de como escrever bons prompts e como usar o modelo
      Para engenheiros de software de nível mais alto isso é bom, mas para desenvolvedores que codam mais no feeling (vibe-coder) pode ser difícil

    • De repente surgiram muitas opiniões dizendo que o Codex CLI com gpt-5-codex ficou melhor que o Claude Code, mas é difícil acreditar tão facilmente

    • Fico me perguntando se parte do prompt não foi movida para uma camada mais alta ou embutida (bake) de outro jeito

    • Ao refatorar código para mover para pacotes, recomendo mover os arquivos manualmente
      Aí basta dizer ao Codex: "antes o arquivo ficava em outro lugar, então ajuste para continuar funcionando"
      Parece que tanto o Codex quanto outros CLIs ainda não lidam bem com o conceito de mover arquivos
      Especialmente exclusão/movimentação de arquivos quase nunca foi rastreada corretamente na geração de commits git

  • Fui por muito tempo um usuário fanático da combinação claude-4-sonnet + Cursor, mas nos últimos 2 meses meu uso disparou
    Depois da assinatura básica do Cursor, fiz upgrade para o Pro, mas bati no limite de novo e acabei usando minha própria chave da API da Claude, gastando cerca de US$ 70 por semana (o que me parece insustentável)
    Então surgiu o grok-code-fast-1, conectei ao Cursor e venho usando todo dia; é rápido, barato (até agora grátis) e fiquei muito satisfeito
    Recentemente também experimentei o GPT-5 pela extensão oficial do Codex no VSCode, e ele é realmente impressionante
    Com o gpt-5-medium, fiz uma grande refatoração de um app React Native, melhorando a estrutura e a performance do app em apenas uma noite (algo que teria levado no mínimo 2 dias se eu fizesse sozinho)
    Agora estou fazendo o gpt-5-medium-codex refazer toda a estrutura de roteamento do app, e ele faz muitas tool calls, entende os comandos e executa tudo de forma muito organizada
    Daqui para frente, meu stack vai ser Cursor + grok-code-fast-1 (para uso diário) e, quando precisar, Codex/GPT
    Aliás, maltratei bastante o gpt-5-medium o dia inteiro, mas na minha conta ChatGPT Plus ainda não bati em limite nenhuma vez, então só tenho a agradecer ao time da OpenAI

    • Fiquei curioso sobre o workflow que você usou para tentar a refatoração com gpt-5-medium
      Como ainda não tenho um caso fácil para testar por conta própria, queria entender como você estrutura os prompts para o modelo, que tipo de sugestões recebe e o quanto seu conhecimento como desenvolvedor ajudou
      Também queria saber se é o tipo de experiência com a qual um SWE médio, ou um desenvolvedor mediano, conseguiria se identificar

    • Em 1 ano usando Cursor, foi a primeira vez que ultrapassei o limite de uso
      Já bati no limite com Claude, GPT e também Grok
      Por isso escolhi pagar uso adicional dentro da assinatura Cursor Pro (US$ 25/mês, ou seja, US$ 20 + US$ 5) para continuar usando Claude, porque ele era mais rápido que o Grok

    • Eu também acabei fazendo quase a mesma escolha
      grok-code-fast-1 funciona bem na maioria das tarefas de programação
      Estou usando no opencode e parecia haver uma cota gratuita disponível, porque consegui usar sem nem adicionar uma chave separada do Grok

  • Estou muito impressionado com a qualidade do IDE CLI do Codex
    Mesmo que antes você tenha achado ruim, recomendo testar de novo com a extensão do VSCode, especialmente pela quantidade generosa de uso incluída na assinatura Plus
    Larguei a assinatura Claude code max e troquei pelo plano ChatGPT pro de US$ 200
    Ficou muito mais rápido e, até agora, ainda não bati em nenhum limite

    • Estou usando aider com gemini pro para desenvolvimento de projetos
      Mais especificamente, compartilho um projeto de ferramenta que criei: aretecodex.tools

    • Uso o Cursor no plano de US$ 20 e bati no limite em apenas 15 dias, então vou passar o resto do mês pagando taxa extra
      Queria saber se alguém recomenda alguma saída para isso

    • Queria entender exatamente o que significa IDE CLI

    • Agora também dá para usar por assinatura, como o claude code, ou continua sendo só via API? Estou confuso

  • Achei interessante que, nesta thread, muitos usuários estejam migrando para o Codex ou abandonando o Claude Code
    O maior problema do Claude Code era que, quando eu passava trabalho demais, ele frequentemente inventava implementações mock ou código falso e, na prática, piorava o problema
    Mesmo ajustando o prompt de entrada, era difícil melhorar, então acabei trocando pelo Codex
    O Codex tem a vantagem de trabalhar dentro de uma base de código já completamente configurada, mas em termos de experiência real ele foi muito melhor

    • Ao usar Claude, o mais eficaz é 1) fazer um plano no plan-mode e 2) mandar implementar o plano
      Outros sistemas não têm um modo separado de "planejamento", então tentam implementar desde o início e isso exige um ajuste fino do prompt
      O Claude suporta separadamente a estrutura "planejar > executar", então a abordagem é diferente
  • Pela minha observação nas últimas duas semanas, o Claude Code perdeu bastante desempenho e sua cota de uso também caiu muito, enquanto o OpenAI Codex parece ter melhorado em desempenho e ficado bem mais generoso em capacidade
    Se alguém não usa há mais de um mês, eu recomendaria testar o Codex CLI de novo

    • Do ponto de vista do usuário final, o mais importante é poder "escapar a qualquer momento"
      É preciso continuar comparando serviços e escolher sempre o que tiver o melhor custo-benefício
      No último ano, várias empresas competiram com vantagens e desvantagens diferentes, mas não houve nenhum serviço especialmente revolucionário
      Não há motivo para insistir em um serviço específico; quem está correndo atrás de prender o usuário são apenas os fornecedores de SaaS

    • Fico curioso se o Codex CLI ainda mantém aquele hábito de agir em modo "YOLO" sempre que detecta que existe git no projeto
      O que considero indispensável em uma ferramenta de apoio à programação é:

  1. uma allowlist de comandos autorizados
  2. comandos perigosos, como rm, exigirem aprovação toda vez
  3. suporte a comandos slash customizados
    Não me importo tanto com hooks de build nem com recursos de subagentes
  • Tenho uma dúvida: como usar no Codex CLI um modo equivalente ao "normal mode" do Claude?
    No Codex, parece que só existe vibe coding ou plan mode, e falta um modo interativo no meio do caminho em que ele pergunte "posso fazer esta tarefa (a/b)?"
    É frustrante ter que escolher apenas entre copiar e colar as edições de código modificadas ou aceitar tudo automaticamente

    • Em geral, eu coloco explicitamente no prompt: "faça um plano e não comece a programar até eu aprovar"
      Depois rodo várias iterações sobre o plano, revisando, e só então autorizo a execução
      Às vezes o LLM "esquece" o plano, então costumo copiar e salvar essa parte separadamente
      Também faço com que ele me entregue o trabalho por etapas e valido em cada marco, como build/testes unitários
  • Achei muito impressionante
    Estava desenvolvendo uma animação de "presença compartilhada" (um webapp em que o fundo muda conforme a posição do cursor de todos os usuários) e experimentei usar tanto Claude quanto Codex
    Até ontem, os dois modelos estavam sofrendo com a tarefa, embora o Claude estivesse um pouco à frente
    Quando a situação exige criar algo "criativo", ambos acabavam entregando resultados um tanto genéricos (stock) e tinham dificuldade para implementar a simulação
    Hoje fiz a mesma tarefa com o Codex e, embora o design ainda estivesse sem graça, a parte da simulação teve um desempenho bem melhor

    • UI feita por LLM sempre sai comum e genérica se você não der prompts especialmente detalhados (design, esquema de cores, preferências visuais etc.)
      Se você incluir mais atributos de UI ou pedir para seguir o design de um app existente, o resultado melhora bastante
  • Quis dar outra chance à programação com IA, então assinei o ChatGPT e experimentei o Codex, mas a velocidade pareceu lenta demais
    Mesmo em um repositório quase vazio e com uma tarefa simples, o modelo ficou "pensando" por 20 minutos
    Para um engenheiro, essa experiência de só ficar esperando faz a produtividade real parecer duvidosa
    Se for um agente assíncrono, até dá para rodar vários em paralelo, mas aí já precisa de uma base de código estruturada, e mesmo depois de gastar horas nisso, ele ainda não conseguiu montar nem o esqueleto
    Li a documentação, vi os vídeos, e ainda assim parece que seria muito mais rápido fazer tudo com as próprias mãos
    Queria saber se estou fazendo algo errado, se é só sobrecarga do servidor, ou se o nível atual da IA é realmente assim

    • A maioria dos engenheiros que vi tenta principalmente rodar em paralelo
      Quando você se acostuma a colocar vários agentes para trabalhar ao mesmo tempo, isso fica bem útil
      Li uma matéria sobre isso um tempo atrás, mas agora está difícil encontrá-la
  • Usei o Codex pela primeira vez no fim de semana e o resultado foi meio estranho
    Mesmo pedindo um exemplo muito simples (subir um app Rails com Docker Compose e adicionar homepage/Devise), em vez de criar os arquivos de fato ele colocou todo o conteúdo dos arquivos hardcoded dentro de um bootstrap.sh
    Quero observar mais para ver se ele passa a funcionar de outra forma

  • Comprei o chatgpt no mês passado e venho usando, e sinto que a OpenAI tem melhorado bastante a experiência do usuário ultimamente
    Por exemplo, o modo de voz é muito melhor que o do Claude, e os nomes dos modelos, que antes eram confusos, ficaram mais simples e fáceis de usar
    Mesmo como assistente geral, o desempenho foi melhor que o do Claude, e a OpenAI continua lançando novas ferramentas, o que também a coloca à frente em termos de confiança