- Está em andamento uma discussão na comunidade Reddit r/codex comparando o desempenho de coding dos dois modelos, e a maioria dos usuários atualmente apoia a vantagem do GPT 5.5
- O GPT 5.5 se destaca em estabilidade e precisão, enquanto o Opus 4.7 recebe muitas reclamações por queda recente de desempenho e limitações de uso
- Também há avaliações de que o Opus 4.7 ainda mantém uma pequena vantagem na área de frontend/design de UI
- Vários usuários apontam um rebaixamento de desempenho (lobotomize) no Claude (Opus) por falta de recursos computacionais, levantando questões de confiabilidade
- Também foi apresentada a opinião de que, como o desempenho dos modelos de IA continua melhorando, no longo prazo acessibilidade, preço, limite de uso e políticas de censura podem se tornar critérios de escolha mais importantes do que a vantagem atual
Comparação geral de desempenho em coding
- A maioria dos comentários concorda que o GPT 5.5 está à frente em coding/programação de forma geral
- O GPT 5.5 é rápido, competente e superior ao Opus 4.7 em atenção aos detalhes
- O GPT 5.5 é eficaz em correção de bugs e detecção de dependências ausentes
- Há quem avalie que o Opus 4.7 tenha capacidade bruta de coding semelhante, mas com uma tendência "preguiçosa (lazy)", às vezes executando apenas o mínimo necessário
- O GPT 5.5 tende a avaliar o escopo de impacto do código e identificar considerações antes de agir, enquanto o Opus 4.7 tende a produzir rapidamente soluções medianas
UI/frontend design
- Em tarefas de design e frontend, o Opus 4.7 apresenta resultados ligeiramente melhores
- No entanto, também há um caso em que o GPT 5.5 implementou um design de site de banda de forma quase perfeita em one-shot, usando apenas o logotipo
- O trabalho de UI/UX no Codex varia de acordo com a qualidade do prompting e com a presença de pistas visuais
- Como estratégia, é recomendada a combinação de usar o GPT 5.5 para construir a base e a estrutura e o Opus 4.7 para refinar o design de frontend
- Também há a sugestão de usar ferramentas gratuitas como Meta Muse Spark para complementar a parte de UI
Problemas de estabilidade e limites de uso do Opus 4.7
- Existe uma percepção amplamente difundida de que o Opus 4.7 teve o desempenho reduzido porque faltaram recursos computacionais com o aumento repentino de novos usuários
- Há muitas reclamações de que o 4.7 (e também o 4.6) foi enfraquecido repetidamente (nerfed)
- Há relatos de muitas alucinações (hallucination) no modo max effort do Opus 4.7
- Em um caso, um único prompt não concluído em uma sessão de 18 minutos consumiu 5 horas de limite de uso
- Há avaliações de que o limite de uso do Opus no plano Claude Pro de $20 é muito apertado
Vantagens e desvantagens do GPT 5.5
- O GPT 5.5 é estável e mantém qualidade consistente, sem regressões de desempenho
- Há avaliação de usuário de que ainda não foi visto gerando informações falsas
- Porém, ele também tem uma tendência "preguiçosa" de executar apenas o que foi explicitamente pedido no prompt, o que exige prompting detalhado ou um processo prévio de planejamento e perguntas e respostas
- Ele tende a consumir mais tokens
- Em comparação com o GPT 5.4 (assinatura de $20), o 5.5 consome o dobro do limite de uso, enquanto a melhora em benchmark fica na faixa de 2% a 5%, o que levanta dúvidas sobre o custo-benefício
Comparação de preços e assinaturas
- Para uso individual, há a opinião de que a assinatura ChatGPT Pro de $100 tem excelente custo-benefício
- Recomenda-se a estratégia de combinar Codex com Kimi de $10 ou Gemini de $22 para complementar trabalhos de UI
- Se a pessoa já usa armazenamento do Google, o Gemini sai na prática por $10~15
- Também há usuários considerando migrar totalmente de uma conta Claude Max para o GPT Plus
Perspectiva de longo prazo
- Dentro de alguns meses, todos os modelos, incluindo os chineses, provavelmente chegarão ao nível do Opus 4.6 ou acima, possivelmente com preços mais baixos
- Mais do que o desempenho do modelo em si, acessibilidade, preço, limite de uso, censura e capacidade de entender contexto tendem a se tornar os principais fatores de diferenciação
- Embora o GPT 5.5 esteja à frente agora, há preocupação de que, assim como o Claude perdeu desempenho após o auge, o Codex também possa sofrer redução de desempenho em breve
- Também existe interesse em comparações com outros modelos como Kimi 2.6, GLM e MiniMax
16 comentários
Eles acham que ninguém vai perceber mesmo se reduzirem o desempenho com um patch silencioso, mas, na verdade, a intuição das pessoas é mais afiada do que parece; juntando a minha impressão com o que o pessoal da comunidade anda dizendo, a resposta aparece na hora.
No fim, é aquele negócio de "então o que você consegue fazer, hein? kkk", então a gente acaba usando porque não tem muito jeito....
Desde a versão 3.5, sempre usei o Claude como principal, mas a partir da 5.5 comecei a usar o GPT como principal. Achei bem bom.
Que tal usar o Claude só para planejar e o Codex só para executar?
É assim que tenho feito ultimamente. Mas a política de sandbox do Codex CLI é rígida demais, então acaba sendo bem incômodo deixar até o build e os testes por conta dele.
Os dois falam de um jeito irritante pra caramba. Fora isso, os dois são preguiçosos também, até deixam de fora o que foi pedido enquanto fazem.
Isso é totalmente parecido com o que eu senti também, então estou pagando o plano de 100 dólares do GPT para usar
E estou pensando em baixar o do Claude, que custa 200 dólares, para o de 100.
O codex 5.4 falava coreano de um jeito estranho, mas em desempenho já era superior ao opus 4.6 e ao opus 4.7 (esse jeito esquisito de falar era uma barreira de entrada / coisas como "abri", "fechei", "vou empurrar" etc.)
No codex 5.5, o jeito de falar foi normalizado e ele ficou muito mais cuidadoso e inteligente. opus 4.7 = dá muito a sensação de que ele é preguiçoso e tenta economizar custo de raciocínio, e na prática até parece ter regredido em relação ao opus 4.6.
Na época do modelo 5.3 exclusivo do codex, parecia mesmo que eu estava conversando com um funcionário subordinado que não tinha nenhuma habilidade de comunicação, mas codava bem.
A partir do 5.4 ele começou a falar um pouco, e desde o 5.5 parece que está com a cabeça no lugar pela metade.
Ainda chama API de contrato, e às vezes solta frases misturando inglês e coreano de um jeito maluco, então às vezes preciso escrever algo como "explique de um jeito fácil de entender, falando com o mínimo possível de inglês".
Mesmo assim, na minha percepção, o desempenho para gerar código passou o opus a partir do 5.4. Saiu o opus 4.7, mas nem testei por curiosidade. Já parece óbvio que vai ser mais uma daquelas ações de marketing no estilo "Anthropic".
Na verdade, o Opus 4.6 e 4.7 é que começaram a ficar estranhos em coreano kkk
Para quem já montou um harness com Claude, Claude é melhor; se vai usar pela primeira vez, aí o GPT acaba sendo melhor. Em custo-benefício, o GPT ganha de lavada, e até o plano de 20 dólares já é suficiente.
Acho que, para quem já desenvolvia antes, o GPT 5.5 é melhor.
Para quem não é desenvolvedor, o Claude é melhor.
Mas não precisa discutir tanto sobre isso.
O melhor mesmo é criar algo útil..
No geral, parece que o consenso está indo na direção de que o GPT 5.5 é superior. Eu só vinha usando o Claude Code (Opus 4.7)... Acho que vou ter que começar a usar o Codex pra valer também.
Na verdade, desde o GPT-5 ele já era superior, tirando planejamento e design de front-end.
A comunidade é que está bem atrasada nisso..
Concordo. Até agora, o que senti na prática e a reação da comunidade foram opostos, então eu vinha sentindo uma certa discrepância.
Pois é.
Há um ano eu recomendava muito o Claude, mas hoje em dia recomendo muito o app Codex.