Depois de meses brigando com o Claude, o Codex parece o sonho de um vibe coder

(reddit.com)

23 pontos por GN⁺ 2026-05-17 | 9 comentários | Compartilhar no WhatsApp

Passei 3 meses programando com Claude/Anthropic, mas a confiabilidade em tarefas no nível de repositório caiu, exigindo um workflow separado de supervisão
Na fase do 4.7, ele alucinava dizendo que a implementação estava concluída quando na prática só cerca de 40% estava feito, além de demonstrar confiança excessiva em torno de stubs/placeholders
Mesmo com o custo do Max x20, o que mais aumentou não foi a produtividade, e sim o consumo de tokens e a carga de supervisão; em 12 de maio, mudei para GPT-5.5 + Codex
O Codex entende melhor o código adjacente sem prompts excessivos, detecta regressões com mais eficiência e tornou administráveis os loops de lint/test e grandes refatorações
A migração basicamente se resumiu a mover CLAUDE.md→AGENTS.md e manter os hooks, e nesse workflow não pretendo voltar atrás

Como o fluxo de desenvolvimento mudou depois da migração do Claude para o Codex

Nos últimos 3 meses, programei principalmente com Claude/Anthropic e, quando o Opus 4.6 foi lançado, seus pontos fortes pareciam ser a compreensão de arquitetura, o tratamento de contexto amplo e a implementação rápida de funcionalidades
Com o tempo, a confiabilidade em tarefas no nível de repositório foi caindo, e ficou necessário um workflow separado para supervisionar o modelo
- vários agentes para verificar regressões em arquivos adjacentes
- um agente de “senior reviewer” em cada commit importante
- validação contínua para checar desvio de implementação e implementações incompletas
- pipeline de lint/test para capturar tarefas que o modelo dizia com confiança que estavam concluídas
Na fase do 4.7, os problemas ficaram maiores no meu workflow pessoal
- ele alucinava que a funcionalidade estava pronta quando a implementação real estava em cerca de 40%
- demonstrava confiança infundada em torno de stubs/placeholders
- apareciam comportamentos de evasão, como dizer que “era necessária uma sessão separada” ou estimar cronogramas excessivos até para mudanças realisticamente possíveis
Eu estava pagando o custo do Max x20, mas o que mais pesava não era o ganho de produtividade, e sim o aumento no consumo de tokens e na carga de supervisão
No fim, em 12 de maio, migrei para GPT-5.5 + Codex, e pela primeira vez em meses programar com IA passou a parecer mais confortável do que estressante

Vantagens percebidas no GPT-5.5 + Codex

O Codex entende bem o código adjacente mesmo sem prompts excessivos e detecta regressões com mais eficiência
O loop de feedback de lint/test funciona de forma mais rigorosa, e grandes refatorações finalmente se tornaram administráveis na prática
Decisões de infraestrutura e mudanças de arquitetura seguem uma direção consistente em vez de parecerem fragmentadas, e o modelo tende mais a realmente concluir o trabalho do que a apenas fingir que concluiu
Evito o /fast na maior parte do tempo porque parece esgotar rapidamente a cota semanal, mas mesmo usando apenas high/xhigh o ganho de produtividade foi grande
Colocar o zip do repositório inteiro no GPT-5.5 Pro extended thinking ajuda a resolver problemas em que outros modelos falharam repetidamente
A migração também não teve grande atrito
- CLAUDE.md foi movido para AGENTS.md
- os hooks continuaram funcionando do mesmo jeito
- quase não foi necessário mudar o workflow como um todo
Isso não quer dizer que todo mundo deva migrar imediatamente, mas nesse workflow específico não pretendo voltar por enquanto

9 comentários

summerz 2026-05-18

Em algum momento, parece que o codex se tornou muito superior em vários aspectos.

skageektp 2026-05-18

Sou só eu que fico revezando as assinaturas? kkkk O mais forte fica mudando toda hora kkkkk

skageektp 2026-05-18

Mas como isso é um post do Reddit sobre o Codex, é preciso levar um pouco isso em consideração. No Reddit, a diferença no quanto cada subreddit idolatra uma coisa é bem grande.

holywork 2026-05-18

Quando eu usava o Cursor antes, costumava alternar entre vários modelos, mas a partir do GPT-5 os modelos da OpenAI passam a impressão de serem relativamente muito cautelosos e, ao mesmo tempo, diligentes.

gkhcdef 2026-05-17

Eu também senti que o Codex tinha uma folga maior de tokens e era muito bom em encontrar falhas nos planos ou no código que o Claude escrevia, então até paguei a mais pensando em migrar de vez.
Ainda mantenho essa convicção, mas também não consegui abandonar completamente o Claude. Como passei a usar o Codex como principal, agora é o Claude que encontra falhas nos planos ou no código do Codex.

xguru 2026-05-17

Eu continuei usando o Codex como principal, e ultimamente parece que ele está ficando cada vez mais inteligente.

Aconteceu comigo agora há pouco: agora ele também deve estar mandando bem na automação por conta própria. Depois que ajustei alguma configuração relacionada a CDN, ele mesmo configurou automaticamente um timer para rodar em 4320 minutos, dizendo que faria uma checagem dali a 3 dias.

O app do Codex para Mac é muito prático. Agora que no celular também está funcionando bem, acho que vou acabar trabalhando ainda mais com ele.

helloppfm 2026-05-17

Claude era o rei, mas com a chegada do Codex 5.5, parece que o Codex foi para o topo.

Uso os dois, mas ultimamente quase não uso o Claude Code. Parece que o Codex faz melhor e, decisivamente, os tokens simplesmente quase não diminuem.

No mês que vem será a vez do Gemini, que ainda não conseguiu tomar o trono?

kaydash 2026-05-17

"A implementação real está em cerca de 40%, mas ele alucina que está concluída ou demonstra confiança excessiva em torno de stubs/placeholders"
A alucinação sobre o nível real de conclusão é irritante demais, e essa parte é muito identificável

GN⁺ 2026-05-17

Opiniões do Hacker News

Ferramentas de IA não são algo para torcer só por um lado como se estivesse escolhendo um time favorito. O ideal é aprender as duas, ou todas se possível, e usar a que melhor se encaixar nesta semana
no mês que vem isso pode ser diferente. Eu assino dois serviços, mas também sei que nem todo mundo pode fazer isso
- No momento realmente parece esse tipo de clima, mas acho que isso vem, em grande parte, da tendência humana de sentir que, se alguém faz outra escolha, é como se estivesse dizendo que eu estou errado
  as ferramentas são todas boas, algumas pessoas conseguem resultados melhores com uma delas e, como foi dito, na semana que vem tudo pode mudar completamente
- Para mim tanto faz quem estiver funcionando melhor agora, e eu sigo testando e experimentando o tempo todo
- Exato. Os modelos estão mudando o tempo todo. Hoje é Anthropic, amanhã é OpenAI, depois Anthropic de novo, na semana que vem pode surgir um novo desafiante da China e no mês seguinte o Google talvez acorde para a vida. E isso se repete sem parar
- Mexi em Codex e Gemini por cerca de uma semana e, até agora, Codex funciona melhor para mim
  mas encontrei no Kinguin um cupom premium de 18 meses por 15 € e também uso Gemini, então quando bato no limite de uso passo algumas tarefas para o Gemini
Opus 4.7 parece focado em parecer útil e produtivo, e em performance para impressionar
Codex de fato entrega o trabalho
Seria ótimo se você pudesse compartilhar um pouco mais do seu fluxo de trabalho. Quero aprender o que você faz e tentar reproduzir
também tenho curiosidade sobre por que você coloca o repositório inteiro no GPT e quais tecnologias e livros usa
Eu mando um prompt, espero o Codex terminar e depois volto para perguntar se ele fez as tarefas periféricas óbvias que antes eu mesmo fazia. Aí ele processa isso, depois gasto tempo com /review e testes manuais, e então volto a dividir em tarefas menores. Para recursos grandes uso plan, também uso a extensão do VSCode e já testei tanto o 5.4 quanto o 5.5, mas o primeiro parece combinar mais comigo
Como dá para usar aqui modelos que não são da OpenAI?
O problema do Claude é que ele não continua executando como o Codex. O Claude pode até ser melhor, mas o Codex tenta levar a tarefa até o fim
o Claude simplesmente para, e mesmo que tivesse essa capacidade provavelmente seria caro demais, então talvez não houvesse tanta diferença. Talvez fosse parecido ou até melhor, mas agora já não sei mais e nem estou usando. O 4.5 foi excelente quando saiu pela primeira vez
Eu também senti que o Codex era mágico, mas é só esperar até ele quebrar. Até três dias atrás eu também pensava assim, mas agora, sinceramente, sinto que ele ficou pior que o Claude
estou usando 5 contas Pro 24 horas por dia, então posso afirmar com certeza: não é mais como era há uma semana, agora realmente piorou muito
- Altman admitiu que, na quinta/sexta, o estado do Codex estava um desastre, e disse que estão tentando entender o que mudou
- Houve uma queda de desempenho por causa de problemas de cache, e também saiu um tweet sobre isso. Disseram que já fizeram rollback e que o desempenho voltou ao nível de referência
- Cinco contas Pro? Você quer dizer contas Plus?