1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Passei 3 meses programando com Claude/Anthropic, mas a confiabilidade em tarefas no nível de repositório caiu, exigindo um workflow separado de supervisão
  • Na fase do 4.7, ele alucinava dizendo que a implementação estava concluída quando na prática só cerca de 40% estava feito, além de demonstrar confiança excessiva em torno de stubs/placeholders
  • Mesmo com o custo do Max x20, o que mais aumentou não foi a produtividade, e sim o consumo de tokens e a carga de supervisão; em 12 de maio, mudei para GPT-5.5 + Codex
  • O Codex entende melhor o código adjacente sem prompts excessivos, detecta regressões com mais eficiência e tornou administráveis os loops de lint/test e grandes refatorações
  • A migração basicamente se resumiu a mover CLAUDE.md→AGENTS.md e manter os hooks, e nesse workflow não pretendo voltar atrás

Como o fluxo de desenvolvimento mudou depois da migração do Claude para o Codex

  • Nos últimos 3 meses, programei principalmente com Claude/Anthropic e, quando o Opus 4.6 foi lançado, seus pontos fortes pareciam ser a compreensão de arquitetura, o tratamento de contexto amplo e a implementação rápida de funcionalidades
  • Com o tempo, a confiabilidade em tarefas no nível de repositório foi caindo, e ficou necessário um workflow separado para supervisionar o modelo
    • vários agentes para verificar regressões em arquivos adjacentes
    • um agente de “senior reviewer” em cada commit importante
    • validação contínua para checar desvio de implementação e implementações incompletas
    • pipeline de lint/test para capturar tarefas que o modelo dizia com confiança que estavam concluídas
  • Na fase do 4.7, os problemas ficaram maiores no meu workflow pessoal
    • ele alucinava que a funcionalidade estava pronta quando a implementação real estava em cerca de 40%
    • demonstrava confiança infundada em torno de stubs/placeholders
    • apareciam comportamentos de evasão, como dizer que “era necessária uma sessão separada” ou estimar cronogramas excessivos até para mudanças realisticamente possíveis
  • Eu estava pagando o custo do Max x20, mas o que mais pesava não era o ganho de produtividade, e sim o aumento no consumo de tokens e na carga de supervisão
  • No fim, em 12 de maio, migrei para GPT-5.5 + Codex, e pela primeira vez em meses programar com IA passou a parecer mais confortável do que estressante

Vantagens percebidas no GPT-5.5 + Codex

  • O Codex entende bem o código adjacente mesmo sem prompts excessivos e detecta regressões com mais eficiência
  • O loop de feedback de lint/test funciona de forma mais rigorosa, e grandes refatorações finalmente se tornaram administráveis na prática
  • Decisões de infraestrutura e mudanças de arquitetura seguem uma direção consistente em vez de parecerem fragmentadas, e o modelo tende mais a realmente concluir o trabalho do que a apenas fingir que concluiu
  • Evito o /fast na maior parte do tempo porque parece esgotar rapidamente a cota semanal, mas mesmo usando apenas high/xhigh o ganho de produtividade foi grande
  • Colocar o zip do repositório inteiro no GPT-5.5 Pro extended thinking ajuda a resolver problemas em que outros modelos falharam repetidamente
  • A migração também não teve grande atrito
    • CLAUDE.md foi movido para AGENTS.md
    • os hooks continuaram funcionando do mesmo jeito
    • quase não foi necessário mudar o workflow como um todo
  • Isso não quer dizer que todo mundo deva migrar imediatamente, mas nesse workflow específico não pretendo voltar por enquanto

1 comentários

 
GN⁺ 1 시간 전
Opiniões do Hacker News
  • Ferramentas de IA não são algo para torcer só por um lado como se estivesse escolhendo um time favorito. O ideal é aprender as duas, ou todas se possível, e usar a que melhor se encaixar nesta semana
    no mês que vem isso pode ser diferente. Eu assino dois serviços, mas também sei que nem todo mundo pode fazer isso

    • No momento realmente parece esse tipo de clima, mas acho que isso vem, em grande parte, da tendência humana de sentir que, se alguém faz outra escolha, é como se estivesse dizendo que eu estou errado
      as ferramentas são todas boas, algumas pessoas conseguem resultados melhores com uma delas e, como foi dito, na semana que vem tudo pode mudar completamente
    • Para mim tanto faz quem estiver funcionando melhor agora, e eu sigo testando e experimentando o tempo todo
    • Exato. Os modelos estão mudando o tempo todo. Hoje é Anthropic, amanhã é OpenAI, depois Anthropic de novo, na semana que vem pode surgir um novo desafiante da China e no mês seguinte o Google talvez acorde para a vida. E isso se repete sem parar
    • Mexi em Codex e Gemini por cerca de uma semana e, até agora, Codex funciona melhor para mim
      mas encontrei no Kinguin um cupom premium de 18 meses por 15 € e também uso Gemini, então quando bato no limite de uso passo algumas tarefas para o Gemini
  • Opus 4.7 parece focado em parecer útil e produtivo, e em performance para impressionar
    Codex de fato entrega o trabalho

  • Seria ótimo se você pudesse compartilhar um pouco mais do seu fluxo de trabalho. Quero aprender o que você faz e tentar reproduzir
    também tenho curiosidade sobre por que você coloca o repositório inteiro no GPT e quais tecnologias e livros usa
    Eu mando um prompt, espero o Codex terminar e depois volto para perguntar se ele fez as tarefas periféricas óbvias que antes eu mesmo fazia. Aí ele processa isso, depois gasto tempo com /review e testes manuais, e então volto a dividir em tarefas menores. Para recursos grandes uso plan, também uso a extensão do VSCode e já testei tanto o 5.4 quanto o 5.5, mas o primeiro parece combinar mais comigo

  • Como dá para usar aqui modelos que não são da OpenAI?

  • O problema do Claude é que ele não continua executando como o Codex. O Claude pode até ser melhor, mas o Codex tenta levar a tarefa até o fim
    o Claude simplesmente para, e mesmo que tivesse essa capacidade provavelmente seria caro demais, então talvez não houvesse tanta diferença. Talvez fosse parecido ou até melhor, mas agora já não sei mais e nem estou usando. O 4.5 foi excelente quando saiu pela primeira vez

  • Eu também senti que o Codex era mágico, mas é só esperar até ele quebrar. Até três dias atrás eu também pensava assim, mas agora, sinceramente, sinto que ele ficou pior que o Claude
    estou usando 5 contas Pro 24 horas por dia, então posso afirmar com certeza: não é mais como era há uma semana, agora realmente piorou muito

    • Altman admitiu que, na quinta/sexta, o estado do Codex estava um desastre, e disse que estão tentando entender o que mudou
    • Houve uma queda de desempenho por causa de problemas de cache, e também saiu um tweet sobre isso. Disseram que já fizeram rollback e que o desempenho voltou ao nível de referência
    • Cinco contas Pro? Você quer dizer contas Plus?