GPT-5-Codex

(openai.com)

16 pontos por GN⁺ 2025-09-17 | 6 comentários | Compartilhar no WhatsApp

GPT-5-Codex é um modelo otimizado para engenharia de software real, com suporte desde sessões curtas e interativas até trabalho autônomo de longa duração
O novo modelo traz recursos de revisão de código aprimorados, detectando falhas importantes mais cedo por meio de exploração de dependências, execução de testes e comparação entre intenção e implementação
Também apresenta excelente desempenho em grandes refatorações de código e ajusta dinamicamente o tempo de trabalho conforme a necessidade do usuário
O Codex CLI e a extensão para IDE foram reformulados para fluxos de trabalho com agentes, com melhorias como anexos de imagem, acompanhamento do progresso da tarefa, busca na web e integração com MCP
Com integração ao GitHub, agora é possível fazer revisão automática de PRs e até sugerir correções, reduzindo a carga de revisão da equipe e aumentando a confiabilidade de release
O Codex agora está incluído nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise

GPT-5-Codex

O GPT-5-Codex é um modelo especializado em tarefas complexas de engenharia do mundo real (build de projetos, adição de recursos, grandes refatorações, depuração e revisão de código)
- A capacidade de seguir instruções em AGENTS.md foi aprimorada, permitindo obter os resultados desejados sem explicações longas sobre estilo ou limpeza de código
Ele ajusta dinamicamente o tempo de raciocínio de acordo com a dificuldade da tarefa
- Responde rapidamente a solicitações simples e, em trabalhos maiores, pode operar de forma independente por horas, refinando os resultados
É otimizado para revisão de código, realizando validação precisa por meio da exploração do codebase, análise de dependências e execução de testes
- Na verificação de commits em projetos open source, as revisões do GPT-5-Codex foram avaliadas como mais confiáveis
Também é forte em tarefas de frontend e, na nuvem, pode usar entrada por imagem para revisar visualmente o progresso e compartilhar resultados em screenshots
Enquanto o GPT-5 é um modelo de uso geral, o GPT-5-Codex foi projetado para tarefas de programação com agentes no ambiente Codex

Atualizações do Codex

O Codex CLI e a extensão para IDE foram redesenhados com foco na experiência de programação com agentes
- No CLI, agora é possível usar anexos de imagem, gerenciamento de To-Do do progresso da tarefa e conexão com sistemas externos
- A UI do terminal foi melhorada para facilitar a visualização de chamadas de ferramentas e diffs
- O modo de aprovação foi simplificado para oferecer segurança e praticidade ao mesmo tempo
A extensão para IDE funciona em VS Code, Cursor e outros, fornecendo resultados mais rápidos com prompts mais curtos com base em arquivos e trechos de código selecionados
- Ela permite alternar de forma fluida entre ambientes locais e na nuvem, além de acompanhar tarefas em andamento e revisar tarefas concluídas
No ambiente de nuvem, foram reforçados os recursos de ganho de velocidade com cache (redução de 90%), configuração automática de ambiente e controle de acesso à internet
- Imagens podem ser usadas em especificações de design de UI ou relatos de bugs, e o Codex pode abrir seu próprio navegador para verificar resultados e anexar screenshots a PRs
A integração com GitHub oferece suporte a revisão automática de PRs e sugestões de correção
- É possível solicitar uma revisão específica com o comando @codex review
- Dentro da OpenAI, o Codex já faz a pré-revisão da maioria dos PRs e detectou centenas de problemas antecipadamente

Segurança e proteção

O Codex é executado por padrão em um ambiente sandbox, com acesso à rede restrito
- É possível controlar, com base em aprovação, se comandos arriscados podem ser executados, e permitir apenas domínios confiáveis
Desenvolvedores podem ajustar o nível de segurança conforme o ambiente, e o Codex fornece logs e resultados de testes para cada tarefa para ajudar na validação
Recomenda-se usá-lo como revisor auxiliar, e não como substituto da revisão humana
O GPT-5-Codex é classificado como um modelo com alta capacidade nos domínios de biologia e química, por isso mecanismos de segurança são aplicados

Preço e disponibilidade

O Codex está incluído nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise
- Plus/Edu/Business são adequados para 1 a 2 sessões por semana, enquanto o Pro oferece suporte a semanas de desenvolvimento em tempo integral
O plano Business permite compra adicional de créditos, e o Enterprise opera com um pool compartilhado de créditos
O GPT-5-Codex também será disponibilizado em breve para usuários de chave de API do Codex CLI
O Codex continuará evoluindo como um parceiro de programação mais rápido e confiável, consolidando-se como uma ferramenta para ajudar equipes a executar projetos ambiciosos

6 comentários

aeolian21 2025-09-18

A capacidade de resolver problemas em questões que exigem considerar vários contextos é fraca e, no geral, ele usa muito código com padrões de design desnecessários. Passa fortemente a impressão de que, no treinamento, foram usados principalmente códigos de exemplo educacionais, e não código real de produção.
No geral, há uma diferença de desempenho considerável em relação ao Gemini.

bluekai17 2025-09-18

Comparando com o Claude Code, por enquanto o Claude Code ainda parece ser um pouco mais utilizável?

kuthia 2025-09-18

No fim, uma boa ferramenta de IA oferece uma boa experiência ao usuário quando leva em conta o nível de repertório cultural (?) do usuário e, ainda assim, garante um certo nível de qualidade no resultado?
É interessante que usuários de todos os níveis esperem, sem exceção, algo melhor das ferramentas de IA.

slowandsnow 2025-09-17

Acho o Claude tão inconveniente que estou pensando em mudar.

shakespeares 2025-09-18

Há algo que esteja te incomodando?

GN⁺ 2025-09-17

Comentários no Hacker News

Confirmou que o tamanho do prompt do novo modelo caiu para quase a metade do anterior (10 KB vs 23 KB) (recursos relacionados: exemplo de prompt anterior, exemplo de prompt mais antigo)
No benchmark SWE-bench, o desempenho é parecido com o do gpt-5 atual, mas o gpt-5-codex parece ter sido reforçado principalmente em refatoração de código (33,9% -> 51,3% em benchmark interno)
Recentemente tentei uma grande refatoração com o Codex CLI (gpt-5-high), separando várias bibliotecas internas em pacotes, mas o modelo frequentemente apresentava bugs no processo de apagar e reescrever arquivos (como casos em que arquivos importantes sumiam)
Pessoalmente, eu preferia a abordagem de simplesmente copiar os arquivos e ajustá-los por pacote, mas nessa melhoria parece que aplicaram um tool calling melhor
Além disso, dizem que o novo modelo é mais "steerable" (mais controlável explicitamente), e na minha experiência o Codex CLI (gpt-5) já era bem mais fácil de controlar do que o Claude Code, então qualquer melhoria extra é muito bem-vinda
- Concordo que a pontuação no SWE-bench é parecida entre gpt-5 e gpt-5-codex, mas a própria avaliação do SWE-bench é muito limitada
  Mesmo com a mesma nota, a experiência real de uso pode ser bem diferente
  Também compartilho uma thread no X (antigo Twitter) que trata em detalhes dos fatores que o SWE-bench não consegue medir: link
- O fato de ser "mais steerable" pode, na verdade, ser uma desvantagem
  Porque ele também pode seguir o prompt de forma excessivamente literal
  No fim, isso exige uma compreensão melhor de como escrever bons prompts e como usar o modelo
  Para engenheiros de software de nível mais alto isso é bom, mas para desenvolvedores que codam mais no feeling (vibe-coder) pode ser difícil
- De repente surgiram muitas opiniões dizendo que o Codex CLI com gpt-5-codex ficou melhor que o Claude Code, mas é difícil acreditar tão facilmente
- Fico me perguntando se parte do prompt não foi movida para uma camada mais alta ou embutida (bake) de outro jeito
- Ao refatorar código para mover para pacotes, recomendo mover os arquivos manualmente
  Aí basta dizer ao Codex: "antes o arquivo ficava em outro lugar, então ajuste para continuar funcionando"
  Parece que tanto o Codex quanto outros CLIs ainda não lidam bem com o conceito de mover arquivos
  Especialmente exclusão/movimentação de arquivos quase nunca foi rastreada corretamente na geração de commits git
Fui por muito tempo um usuário fanático da combinação claude-4-sonnet + Cursor, mas nos últimos 2 meses meu uso disparou
Depois da assinatura básica do Cursor, fiz upgrade para o Pro, mas bati no limite de novo e acabei usando minha própria chave da API da Claude, gastando cerca de US$ 70 por semana (o que me parece insustentável)
Então surgiu o grok-code-fast-1, conectei ao Cursor e venho usando todo dia; é rápido, barato (até agora grátis) e fiquei muito satisfeito
Recentemente também experimentei o GPT-5 pela extensão oficial do Codex no VSCode, e ele é realmente impressionante
Com o gpt-5-medium, fiz uma grande refatoração de um app React Native, melhorando a estrutura e a performance do app em apenas uma noite (algo que teria levado no mínimo 2 dias se eu fizesse sozinho)
Agora estou fazendo o gpt-5-medium-codex refazer toda a estrutura de roteamento do app, e ele faz muitas tool calls, entende os comandos e executa tudo de forma muito organizada
Daqui para frente, meu stack vai ser Cursor + grok-code-fast-1 (para uso diário) e, quando precisar, Codex/GPT
Aliás, maltratei bastante o gpt-5-medium o dia inteiro, mas na minha conta ChatGPT Plus ainda não bati em limite nenhuma vez, então só tenho a agradecer ao time da OpenAI
- Fiquei curioso sobre o workflow que você usou para tentar a refatoração com gpt-5-medium
  Como ainda não tenho um caso fácil para testar por conta própria, queria entender como você estrutura os prompts para o modelo, que tipo de sugestões recebe e o quanto seu conhecimento como desenvolvedor ajudou
  Também queria saber se é o tipo de experiência com a qual um SWE médio, ou um desenvolvedor mediano, conseguiria se identificar
- Em 1 ano usando Cursor, foi a primeira vez que ultrapassei o limite de uso
  Já bati no limite com Claude, GPT e também Grok
  Por isso escolhi pagar uso adicional dentro da assinatura Cursor Pro (US$ 25/mês, ou seja, US$ 20 + US$ 5) para continuar usando Claude, porque ele era mais rápido que o Grok
- Eu também acabei fazendo quase a mesma escolha
  grok-code-fast-1 funciona bem na maioria das tarefas de programação
  Estou usando no opencode e parecia haver uma cota gratuita disponível, porque consegui usar sem nem adicionar uma chave separada do Grok
Estou muito impressionado com a qualidade do IDE CLI do Codex
Mesmo que antes você tenha achado ruim, recomendo testar de novo com a extensão do VSCode, especialmente pela quantidade generosa de uso incluída na assinatura Plus
Larguei a assinatura Claude code max e troquei pelo plano ChatGPT pro de US$ 200
Ficou muito mais rápido e, até agora, ainda não bati em nenhum limite
- Estou usando aider com gemini pro para desenvolvimento de projetos
  Mais especificamente, compartilho um projeto de ferramenta que criei: aretecodex.tools
- Uso o Cursor no plano de US$ 20 e bati no limite em apenas 15 dias, então vou passar o resto do mês pagando taxa extra
  Queria saber se alguém recomenda alguma saída para isso
- Queria entender exatamente o que significa IDE CLI
- Agora também dá para usar por assinatura, como o claude code, ou continua sendo só via API? Estou confuso
Achei interessante que, nesta thread, muitos usuários estejam migrando para o Codex ou abandonando o Claude Code
O maior problema do Claude Code era que, quando eu passava trabalho demais, ele frequentemente inventava implementações mock ou código falso e, na prática, piorava o problema
Mesmo ajustando o prompt de entrada, era difícil melhorar, então acabei trocando pelo Codex
O Codex tem a vantagem de trabalhar dentro de uma base de código já completamente configurada, mas em termos de experiência real ele foi muito melhor
- Ao usar Claude, o mais eficaz é 1) fazer um plano no plan-mode e 2) mandar implementar o plano
  Outros sistemas não têm um modo separado de "planejamento", então tentam implementar desde o início e isso exige um ajuste fino do prompt
  O Claude suporta separadamente a estrutura "planejar > executar", então a abordagem é diferente
Pela minha observação nas últimas duas semanas, o Claude Code perdeu bastante desempenho e sua cota de uso também caiu muito, enquanto o OpenAI Codex parece ter melhorado em desempenho e ficado bem mais generoso em capacidade
Se alguém não usa há mais de um mês, eu recomendaria testar o Codex CLI de novo
- Do ponto de vista do usuário final, o mais importante é poder "escapar a qualquer momento"
  É preciso continuar comparando serviços e escolher sempre o que tiver o melhor custo-benefício
  No último ano, várias empresas competiram com vantagens e desvantagens diferentes, mas não houve nenhum serviço especialmente revolucionário
  Não há motivo para insistir em um serviço específico; quem está correndo atrás de prender o usuário são apenas os fornecedores de SaaS
- Fico curioso se o Codex CLI ainda mantém aquele hábito de agir em modo "YOLO" sempre que detecta que existe git no projeto
  O que considero indispensável em uma ferramenta de apoio à programação é:

uma allowlist de comandos autorizados
comandos perigosos, como rm, exigirem aprovação toda vez
suporte a comandos slash customizados
Não me importo tanto com hooks de build nem com recursos de subagentes

Tenho uma dúvida: como usar no Codex CLI um modo equivalente ao "normal mode" do Claude?
No Codex, parece que só existe vibe coding ou plan mode, e falta um modo interativo no meio do caminho em que ele pergunte "posso fazer esta tarefa (a/b)?"
É frustrante ter que escolher apenas entre copiar e colar as edições de código modificadas ou aceitar tudo automaticamente
- Em geral, eu coloco explicitamente no prompt: "faça um plano e não comece a programar até eu aprovar"
  Depois rodo várias iterações sobre o plano, revisando, e só então autorizo a execução
  Às vezes o LLM "esquece" o plano, então costumo copiar e salvar essa parte separadamente
  Também faço com que ele me entregue o trabalho por etapas e valido em cada marco, como build/testes unitários
Achei muito impressionante
Estava desenvolvendo uma animação de "presença compartilhada" (um webapp em que o fundo muda conforme a posição do cursor de todos os usuários) e experimentei usar tanto Claude quanto Codex
Até ontem, os dois modelos estavam sofrendo com a tarefa, embora o Claude estivesse um pouco à frente
Quando a situação exige criar algo "criativo", ambos acabavam entregando resultados um tanto genéricos (stock) e tinham dificuldade para implementar a simulação
Hoje fiz a mesma tarefa com o Codex e, embora o design ainda estivesse sem graça, a parte da simulação teve um desempenho bem melhor
- UI feita por LLM sempre sai comum e genérica se você não der prompts especialmente detalhados (design, esquema de cores, preferências visuais etc.)
  Se você incluir mais atributos de UI ou pedir para seguir o design de um app existente, o resultado melhora bastante
Quis dar outra chance à programação com IA, então assinei o ChatGPT e experimentei o Codex, mas a velocidade pareceu lenta demais
Mesmo em um repositório quase vazio e com uma tarefa simples, o modelo ficou "pensando" por 20 minutos
Para um engenheiro, essa experiência de só ficar esperando faz a produtividade real parecer duvidosa
Se for um agente assíncrono, até dá para rodar vários em paralelo, mas aí já precisa de uma base de código estruturada, e mesmo depois de gastar horas nisso, ele ainda não conseguiu montar nem o esqueleto
Li a documentação, vi os vídeos, e ainda assim parece que seria muito mais rápido fazer tudo com as próprias mãos
Queria saber se estou fazendo algo errado, se é só sobrecarga do servidor, ou se o nível atual da IA é realmente assim
- A maioria dos engenheiros que vi tenta principalmente rodar em paralelo
  Quando você se acostuma a colocar vários agentes para trabalhar ao mesmo tempo, isso fica bem útil
  Li uma matéria sobre isso um tempo atrás, mas agora está difícil encontrá-la
Usei o Codex pela primeira vez no fim de semana e o resultado foi meio estranho
Mesmo pedindo um exemplo muito simples (subir um app Rails com Docker Compose e adicionar homepage/Devise), em vez de criar os arquivos de fato ele colocou todo o conteúdo dos arquivos hardcoded dentro de um bootstrap.sh
Quero observar mais para ver se ele passa a funcionar de outra forma
Comprei o chatgpt no mês passado e venho usando, e sinto que a OpenAI tem melhorado bastante a experiência do usuário ultimamente
Por exemplo, o modo de voz é muito melhor que o do Claude, e os nomes dos modelos, que antes eram confusos, ficaram mais simples e fáceis de usar
Mesmo como assistente geral, o desempenho foi melhor que o do Claude, e a OpenAI continua lançando novas ferramentas, o que também a coloca à frente em termos de confiança

GPT-5-Codex

GPT-5-Codex

Atualizações do Codex

Segurança e proteção

Preço e disponibilidade

Leituras relacionadas

6 comentários

Comentários no Hacker News