GPT-5-Codex
(openai.com)- GPT-5-Codex é um modelo otimizado para engenharia de software real, com suporte desde sessões curtas e interativas até trabalho autônomo de longa duração
- O novo modelo traz recursos de revisão de código aprimorados, detectando falhas importantes mais cedo por meio de exploração de dependências, execução de testes e comparação entre intenção e implementação
- Também apresenta excelente desempenho em grandes refatorações de código e ajusta dinamicamente o tempo de trabalho conforme a necessidade do usuário
- O Codex CLI e a extensão para IDE foram reformulados para fluxos de trabalho com agentes, com melhorias como anexos de imagem, acompanhamento do progresso da tarefa, busca na web e integração com MCP
- Com integração ao GitHub, agora é possível fazer revisão automática de PRs e até sugerir correções, reduzindo a carga de revisão da equipe e aumentando a confiabilidade de release
- O Codex agora está incluído nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise
GPT-5-Codex
- O GPT-5-Codex é um modelo especializado em tarefas complexas de engenharia do mundo real (build de projetos, adição de recursos, grandes refatorações, depuração e revisão de código)
- A capacidade de seguir instruções em
AGENTS.mdfoi aprimorada, permitindo obter os resultados desejados sem explicações longas sobre estilo ou limpeza de código
- A capacidade de seguir instruções em
- Ele ajusta dinamicamente o tempo de raciocínio de acordo com a dificuldade da tarefa
- Responde rapidamente a solicitações simples e, em trabalhos maiores, pode operar de forma independente por horas, refinando os resultados
- É otimizado para revisão de código, realizando validação precisa por meio da exploração do codebase, análise de dependências e execução de testes
- Na verificação de commits em projetos open source, as revisões do GPT-5-Codex foram avaliadas como mais confiáveis
- Também é forte em tarefas de frontend e, na nuvem, pode usar entrada por imagem para revisar visualmente o progresso e compartilhar resultados em screenshots
- Enquanto o GPT-5 é um modelo de uso geral, o GPT-5-Codex foi projetado para tarefas de programação com agentes no ambiente Codex
Atualizações do Codex
- O Codex CLI e a extensão para IDE foram redesenhados com foco na experiência de programação com agentes
- No CLI, agora é possível usar anexos de imagem, gerenciamento de To-Do do progresso da tarefa e conexão com sistemas externos
- A UI do terminal foi melhorada para facilitar a visualização de chamadas de ferramentas e diffs
- O modo de aprovação foi simplificado para oferecer segurança e praticidade ao mesmo tempo
- A extensão para IDE funciona em VS Code, Cursor e outros, fornecendo resultados mais rápidos com prompts mais curtos com base em arquivos e trechos de código selecionados
- Ela permite alternar de forma fluida entre ambientes locais e na nuvem, além de acompanhar tarefas em andamento e revisar tarefas concluídas
- No ambiente de nuvem, foram reforçados os recursos de ganho de velocidade com cache (redução de 90%), configuração automática de ambiente e controle de acesso à internet
- Imagens podem ser usadas em especificações de design de UI ou relatos de bugs, e o Codex pode abrir seu próprio navegador para verificar resultados e anexar screenshots a PRs
- A integração com GitHub oferece suporte a revisão automática de PRs e sugestões de correção
- É possível solicitar uma revisão específica com o comando
@codex review - Dentro da OpenAI, o Codex já faz a pré-revisão da maioria dos PRs e detectou centenas de problemas antecipadamente
- É possível solicitar uma revisão específica com o comando
Segurança e proteção
- O Codex é executado por padrão em um ambiente sandbox, com acesso à rede restrito
- É possível controlar, com base em aprovação, se comandos arriscados podem ser executados, e permitir apenas domínios confiáveis
- Desenvolvedores podem ajustar o nível de segurança conforme o ambiente, e o Codex fornece logs e resultados de testes para cada tarefa para ajudar na validação
- Recomenda-se usá-lo como revisor auxiliar, e não como substituto da revisão humana
- O GPT-5-Codex é classificado como um modelo com alta capacidade nos domínios de biologia e química, por isso mecanismos de segurança são aplicados
Preço e disponibilidade
- O Codex está incluído nos planos ChatGPT Plus, Pro, Business, Edu e Enterprise
- Plus/Edu/Business são adequados para 1 a 2 sessões por semana, enquanto o Pro oferece suporte a semanas de desenvolvimento em tempo integral
- O plano Business permite compra adicional de créditos, e o Enterprise opera com um pool compartilhado de créditos
- O GPT-5-Codex também será disponibilizado em breve para usuários de chave de API do Codex CLI
- O Codex continuará evoluindo como um parceiro de programação mais rápido e confiável, consolidando-se como uma ferramenta para ajudar equipes a executar projetos ambiciosos
6 comentários
A capacidade de resolver problemas em questões que exigem considerar vários contextos é fraca e, no geral, ele usa muito código com padrões de design desnecessários. Passa fortemente a impressão de que, no treinamento, foram usados principalmente códigos de exemplo educacionais, e não código real de produção.
No geral, há uma diferença de desempenho considerável em relação ao Gemini.
Comparando com o Claude Code, por enquanto o Claude Code ainda parece ser um pouco mais utilizável?
No fim, uma boa ferramenta de IA oferece uma boa experiência ao usuário quando leva em conta o nível de repertório cultural (?) do usuário e, ainda assim, garante um certo nível de qualidade no resultado?
É interessante que usuários de todos os níveis esperem, sem exceção, algo melhor das ferramentas de IA.
Acho o Claude tão inconveniente que estou pensando em mudar.
Há algo que esteja te incomodando?
Comentários no Hacker News
Confirmou que o tamanho do prompt do novo modelo caiu para quase a metade do anterior (10 KB vs 23 KB) (recursos relacionados: exemplo de prompt anterior, exemplo de prompt mais antigo)
No benchmark SWE-bench, o desempenho é parecido com o do gpt-5 atual, mas o
gpt-5-codexparece ter sido reforçado principalmente em refatoração de código (33,9% -> 51,3% em benchmark interno)Recentemente tentei uma grande refatoração com o Codex CLI (
gpt-5-high), separando várias bibliotecas internas em pacotes, mas o modelo frequentemente apresentava bugs no processo de apagar e reescrever arquivos (como casos em que arquivos importantes sumiam)Pessoalmente, eu preferia a abordagem de simplesmente copiar os arquivos e ajustá-los por pacote, mas nessa melhoria parece que aplicaram um tool calling melhor
Além disso, dizem que o novo modelo é mais "steerable" (mais controlável explicitamente), e na minha experiência o Codex CLI (gpt-5) já era bem mais fácil de controlar do que o Claude Code, então qualquer melhoria extra é muito bem-vinda
Concordo que a pontuação no SWE-bench é parecida entre gpt-5 e gpt-5-codex, mas a própria avaliação do SWE-bench é muito limitada
Mesmo com a mesma nota, a experiência real de uso pode ser bem diferente
Também compartilho uma thread no X (antigo Twitter) que trata em detalhes dos fatores que o SWE-bench não consegue medir: link
O fato de ser "mais steerable" pode, na verdade, ser uma desvantagem
Porque ele também pode seguir o prompt de forma excessivamente literal
No fim, isso exige uma compreensão melhor de como escrever bons prompts e como usar o modelo
Para engenheiros de software de nível mais alto isso é bom, mas para desenvolvedores que codam mais no feeling (
vibe-coder) pode ser difícilDe repente surgiram muitas opiniões dizendo que o Codex CLI com gpt-5-codex ficou melhor que o Claude Code, mas é difícil acreditar tão facilmente
Fico me perguntando se parte do prompt não foi movida para uma camada mais alta ou embutida (
bake) de outro jeitoAo refatorar código para mover para pacotes, recomendo mover os arquivos manualmente
Aí basta dizer ao Codex: "antes o arquivo ficava em outro lugar, então ajuste para continuar funcionando"
Parece que tanto o Codex quanto outros CLIs ainda não lidam bem com o conceito de mover arquivos
Especialmente exclusão/movimentação de arquivos quase nunca foi rastreada corretamente na geração de commits git
Fui por muito tempo um usuário fanático da combinação claude-4-sonnet + Cursor, mas nos últimos 2 meses meu uso disparou
Depois da assinatura básica do Cursor, fiz upgrade para o Pro, mas bati no limite de novo e acabei usando minha própria chave da API da Claude, gastando cerca de US$ 70 por semana (o que me parece insustentável)
Então surgiu o grok-code-fast-1, conectei ao Cursor e venho usando todo dia; é rápido, barato (até agora grátis) e fiquei muito satisfeito
Recentemente também experimentei o GPT-5 pela extensão oficial do Codex no VSCode, e ele é realmente impressionante
Com o gpt-5-medium, fiz uma grande refatoração de um app React Native, melhorando a estrutura e a performance do app em apenas uma noite (algo que teria levado no mínimo 2 dias se eu fizesse sozinho)
Agora estou fazendo o gpt-5-medium-codex refazer toda a estrutura de roteamento do app, e ele faz muitas tool calls, entende os comandos e executa tudo de forma muito organizada
Daqui para frente, meu stack vai ser Cursor + grok-code-fast-1 (para uso diário) e, quando precisar, Codex/GPT
Aliás, maltratei bastante o gpt-5-medium o dia inteiro, mas na minha conta ChatGPT Plus ainda não bati em limite nenhuma vez, então só tenho a agradecer ao time da OpenAI
Fiquei curioso sobre o workflow que você usou para tentar a refatoração com gpt-5-medium
Como ainda não tenho um caso fácil para testar por conta própria, queria entender como você estrutura os prompts para o modelo, que tipo de sugestões recebe e o quanto seu conhecimento como desenvolvedor ajudou
Também queria saber se é o tipo de experiência com a qual um SWE médio, ou um desenvolvedor mediano, conseguiria se identificar
Em 1 ano usando Cursor, foi a primeira vez que ultrapassei o limite de uso
Já bati no limite com Claude, GPT e também Grok
Por isso escolhi pagar uso adicional dentro da assinatura Cursor Pro (US$ 25/mês, ou seja, US$ 20 + US$ 5) para continuar usando Claude, porque ele era mais rápido que o Grok
Eu também acabei fazendo quase a mesma escolha
grok-code-fast-1 funciona bem na maioria das tarefas de programação
Estou usando no opencode e parecia haver uma cota gratuita disponível, porque consegui usar sem nem adicionar uma chave separada do Grok
Estou muito impressionado com a qualidade do IDE CLI do Codex
Mesmo que antes você tenha achado ruim, recomendo testar de novo com a extensão do VSCode, especialmente pela quantidade generosa de uso incluída na assinatura Plus
Larguei a assinatura Claude code max e troquei pelo plano ChatGPT pro de US$ 200
Ficou muito mais rápido e, até agora, ainda não bati em nenhum limite
Estou usando aider com gemini pro para desenvolvimento de projetos
Mais especificamente, compartilho um projeto de ferramenta que criei: aretecodex.tools
Uso o Cursor no plano de US$ 20 e bati no limite em apenas 15 dias, então vou passar o resto do mês pagando taxa extra
Queria saber se alguém recomenda alguma saída para isso
Queria entender exatamente o que significa IDE CLI
Agora também dá para usar por assinatura, como o claude code, ou continua sendo só via API? Estou confuso
Achei interessante que, nesta thread, muitos usuários estejam migrando para o Codex ou abandonando o Claude Code
O maior problema do Claude Code era que, quando eu passava trabalho demais, ele frequentemente inventava implementações mock ou código falso e, na prática, piorava o problema
Mesmo ajustando o prompt de entrada, era difícil melhorar, então acabei trocando pelo Codex
O Codex tem a vantagem de trabalhar dentro de uma base de código já completamente configurada, mas em termos de experiência real ele foi muito melhor
Outros sistemas não têm um modo separado de "planejamento", então tentam implementar desde o início e isso exige um ajuste fino do prompt
O Claude suporta separadamente a estrutura "planejar > executar", então a abordagem é diferente
Pela minha observação nas últimas duas semanas, o Claude Code perdeu bastante desempenho e sua cota de uso também caiu muito, enquanto o OpenAI Codex parece ter melhorado em desempenho e ficado bem mais generoso em capacidade
Se alguém não usa há mais de um mês, eu recomendaria testar o Codex CLI de novo
Do ponto de vista do usuário final, o mais importante é poder "escapar a qualquer momento"
É preciso continuar comparando serviços e escolher sempre o que tiver o melhor custo-benefício
No último ano, várias empresas competiram com vantagens e desvantagens diferentes, mas não houve nenhum serviço especialmente revolucionário
Não há motivo para insistir em um serviço específico; quem está correndo atrás de prender o usuário são apenas os fornecedores de SaaS
Fico curioso se o Codex CLI ainda mantém aquele hábito de agir em modo "YOLO" sempre que detecta que existe git no projeto
O que considero indispensável em uma ferramenta de apoio à programação é:
rm, exigirem aprovação toda vezNão me importo tanto com hooks de build nem com recursos de subagentes
Tenho uma dúvida: como usar no Codex CLI um modo equivalente ao "normal mode" do Claude?
No Codex, parece que só existe
vibe codingou plan mode, e falta um modo interativo no meio do caminho em que ele pergunte "posso fazer esta tarefa (a/b)?"É frustrante ter que escolher apenas entre copiar e colar as edições de código modificadas ou aceitar tudo automaticamente
Depois rodo várias iterações sobre o plano, revisando, e só então autorizo a execução
Às vezes o LLM "esquece" o plano, então costumo copiar e salvar essa parte separadamente
Também faço com que ele me entregue o trabalho por etapas e valido em cada marco, como build/testes unitários
Achei muito impressionante
Estava desenvolvendo uma animação de "presença compartilhada" (um webapp em que o fundo muda conforme a posição do cursor de todos os usuários) e experimentei usar tanto Claude quanto Codex
Até ontem, os dois modelos estavam sofrendo com a tarefa, embora o Claude estivesse um pouco à frente
Quando a situação exige criar algo "criativo", ambos acabavam entregando resultados um tanto genéricos (
stock) e tinham dificuldade para implementar a simulaçãoHoje fiz a mesma tarefa com o Codex e, embora o design ainda estivesse sem graça, a parte da simulação teve um desempenho bem melhor
Se você incluir mais atributos de UI ou pedir para seguir o design de um app existente, o resultado melhora bastante
Quis dar outra chance à programação com IA, então assinei o ChatGPT e experimentei o Codex, mas a velocidade pareceu lenta demais
Mesmo em um repositório quase vazio e com uma tarefa simples, o modelo ficou "pensando" por 20 minutos
Para um engenheiro, essa experiência de só ficar esperando faz a produtividade real parecer duvidosa
Se for um agente assíncrono, até dá para rodar vários em paralelo, mas aí já precisa de uma base de código estruturada, e mesmo depois de gastar horas nisso, ele ainda não conseguiu montar nem o esqueleto
Li a documentação, vi os vídeos, e ainda assim parece que seria muito mais rápido fazer tudo com as próprias mãos
Queria saber se estou fazendo algo errado, se é só sobrecarga do servidor, ou se o nível atual da IA é realmente assim
Quando você se acostuma a colocar vários agentes para trabalhar ao mesmo tempo, isso fica bem útil
Li uma matéria sobre isso um tempo atrás, mas agora está difícil encontrá-la
Usei o Codex pela primeira vez no fim de semana e o resultado foi meio estranho
Mesmo pedindo um exemplo muito simples (subir um app Rails com Docker Compose e adicionar homepage/Devise), em vez de criar os arquivos de fato ele colocou todo o conteúdo dos arquivos hardcoded dentro de um
bootstrap.shQuero observar mais para ver se ele passa a funcionar de outra forma
Comprei o chatgpt no mês passado e venho usando, e sinto que a OpenAI tem melhorado bastante a experiência do usuário ultimamente
Por exemplo, o modo de voz é muito melhor que o do Claude, e os nomes dos modelos, que antes eram confusos, ficaram mais simples e fáceis de usar
Mesmo como assistente geral, o desempenho foi melhor que o do Claude, e a OpenAI continua lançando novas ferramentas, o que também a coloca à frente em termos de confiança