GPT 5.5 vs Opus 4.7: qual modelo é melhor para coding/programação?

(reddit.com)

24 pontos por GN⁺ 3 일 전 | 16 comentários | Compartilhar no WhatsApp

Está em andamento uma discussão na comunidade r/codex do Reddit comparando o desempenho de coding dos dois modelos, e a maioria dos usuários atualmente apoia a vantagem do GPT 5.5
O GPT 5.5 se destaca em estabilidade e precisão, enquanto o Opus 4.7 recebe muitas reclamações por queda recente de desempenho e limites de uso
Também há avaliações de que o Opus 4.7 ainda mantém uma leve vantagem na área de frontend/design de UI
Vários usuários apontam um rebaixamento de desempenho (“lobotomize”) do Claude (Opus) por falta de recursos computacionais, levantando dúvidas sobre sua confiabilidade
Também foi apresentada a opinião de que, como o desempenho dos modelos de IA continua melhorando, no longo prazo acessibilidade, preço, limites de uso e políticas de censura podem se tornar critérios de escolha mais importantes do que a vantagem atual

Comparação geral de desempenho em coding

A maioria dos comentários concorda que o GPT 5.5 está à frente em coding/programação de forma geral
O GPT 5.5 é rápido, competente e tem maior atenção aos detalhes do que o Opus 4.7
O GPT 5.5 é eficaz em correção de bugs e detecção de dependências ausentes
Há quem avalie que a capacidade pura de coding do Opus 4.7 seja parecida, mas ele teria uma tendência a ser “preguiçoso” e, às vezes, fazer apenas o mínimo necessário
O GPT 5.5 tende a avaliar o escopo de impacto do código e identificar os pontos a considerar antes de agir, enquanto o Opus 4.7 tende a partir rápido para uma solução intermediária

UI/frontend design

Em tarefas de design e frontend, o Opus 4.7 mostra resultados ligeiramente melhores
Ainda assim, há um caso em que o GPT 5.5 implementou um design de site de banda quase perfeitamente em one-shot, usando apenas o logo
O desempenho do Codex em trabalhos de UI/UX varia conforme a qualidade do prompt e a presença de pistas visuais
Como estratégia, recomenda-se usar o GPT 5.5 para construir a base e a estrutura e o Opus 4.7 para refinar o design do frontend
Também existe a sugestão de usar ferramentas gratuitas como o Meta Muse Spark para complementar a parte de UI

Problemas de estabilidade e limites de uso do Opus 4.7

Está bastante difundida a percepção de que o Opus 4.7 teve seu desempenho reduzido porque faltaram recursos computacionais com o forte aumento de novos usuários
Há muitas reclamações de que o 4.7 (e também o 4.6) foi enfraquecido repetidamente (nerfed)
Há relatos de muitas alucinações no modo max effort do Opus 4.7
Houve um caso em que um único prompt não concluído, em uma sessão de 18 minutos, consumiu 5 horas de limite de uso
A avaliação é de que o limite de uso do Opus no plano Claude Pro de US$ 20 é bastante apertado

Vantagens e desvantagens do GPT 5.5

O GPT 5.5 é estável e mantém qualidade consistente, sem regressões de desempenho
Há avaliações de usuários de que ainda não foi observado gerando informações falsas
Por outro lado, ele também teria uma tendência “preguiçosa” de fazer apenas o mínimo explicitamente pedido no prompt, exigindo prompts detalhados ou um processo prévio de planejamento e Q&A
Ele tende a consumir mais tokens
Em comparação com o GPT 5.4 (assinatura de US$ 20), o 5.5 consome o dobro do limite de uso, enquanto a melhora em benchmarks ficaria em apenas 2% a 5%, o que também levanta dúvidas sobre o custo-benefício

Comparação de preço e assinaturas

Para uso individual, há a opinião de que a assinatura ChatGPT Pro de US$ 100 oferece excelente custo-benefício
Recomenda-se a estratégia de combinar o Codex com Kimi de US$ 10 ou Gemini de US$ 22 para complementar o trabalho de UI
Se a pessoa já usa o armazenamento do Google, o Gemini fica na prática em torno de US$ 10 a US$ 15
Há também usuários considerando migrar completamente de uma conta Claude Max para o GPT Plus

Perspectiva de longo prazo

Nos próximos meses, todos os modelos, incluindo os chineses, devem alcançar pelo menos o nível do Opus 4.6, possivelmente com preços mais baixos
Mais do que o desempenho do modelo em si, acessibilidade, preço, limites de uso, censura e capacidade de entender contexto devem se tornar fatores de diferenciação mais importantes
Embora o GPT 5.5 esteja à frente agora, existe a preocupação de que, assim como o Claude perdeu desempenho após seu auge no passado, o Codex também possa ser rebaixado em breve
Também há interesse em comparações com outros modelos como Kimi 2.6, GLM e MiniMax

16 comentários

dicebattle 1 일 전

Eles acham que ninguém vai perceber mesmo se reduzirem o desempenho com um patch silencioso, mas, na verdade, a intuição das pessoas é mais afiada do que parece; juntando a minha impressão com o que o pessoal da comunidade anda dizendo, a resposta aparece na hora.

No fim, é aquele negócio de "então o que você consegue fazer, hein? kkk", então a gente acaba usando porque não tem muito jeito....

funnycat 2 일 전

Desde a versão 3.5, sempre usei o Claude como principal, mas a partir da 5.5 comecei a usar o GPT como principal. Achei bem bom.

tkddls8848 2 일 전

Que tal usar o Claude só para planejar e o Codex só para executar?

cosine20 2 일 전

É assim que tenho feito ultimamente. Mas a política de sandbox do Codex CLI é rígida demais, então acaba sendo bem incômodo deixar até o build e os testes por conta dele.

kaydash 2 일 전

Os dois falam de um jeito irritante pra caramba. Fora isso, os dois são preguiçosos também, até deixam de fora o que foi pedido enquanto fazem.

jimmy2056 2 일 전

Isso é totalmente parecido com o que eu senti também, então estou pagando o plano de 100 dólares do GPT para usar
E estou pensando em baixar o do Claude, que custa 200 dólares, para o de 100.

mse9000 2 일 전

O codex 5.4 falava coreano de um jeito estranho, mas em desempenho já era superior ao opus 4.6 e ao opus 4.7 (esse jeito esquisito de falar era uma barreira de entrada / coisas como "abri", "fechei", "vou empurrar" etc.)

No codex 5.5, o jeito de falar foi normalizado e ele ficou muito mais cuidadoso e inteligente. opus 4.7 = dá muito a sensação de que ele é preguiçoso e tenta economizar custo de raciocínio, e na prática até parece ter regredido em relação ao opus 4.6.

dicebattle 1 일 전

Na época do modelo 5.3 exclusivo do codex, parecia mesmo que eu estava conversando com um funcionário subordinado que não tinha nenhuma habilidade de comunicação, mas codava bem.
A partir do 5.4 ele começou a falar um pouco, e desde o 5.5 parece que está com a cabeça no lugar pela metade.
Ainda chama API de contrato, e às vezes solta frases misturando inglês e coreano de um jeito maluco, então às vezes preciso escrever algo como "explique de um jeito fácil de entender, falando com o mínimo possível de inglês".

Mesmo assim, na minha percepção, o desempenho para gerar código passou o opus a partir do 5.4. Saiu o opus 4.7, mas nem testei por curiosidade. Já parece óbvio que vai ser mais uma daquelas ações de marketing no estilo "Anthropic".

cosine20 2 일 전

Na verdade, o Opus 4.6 e 4.7 é que começaram a ficar estranhos em coreano kkk

bungker 2 일 전

Para quem já montou um harness com Claude, Claude é melhor; se vai usar pela primeira vez, aí o GPT acaba sendo melhor. Em custo-benefício, o GPT ganha de lavada, e até o plano de 20 dólares já é suficiente.

memevibe82 2 일 전

Acho que, para quem já desenvolvia antes, o GPT 5.5 é melhor.

Para quem não é desenvolvedor, o Claude é melhor.

Mas não precisa discutir tanto sobre isso.

O melhor mesmo é criar algo útil..

rkjun 3 일 전

No geral, parece que o consenso está indo na direção de que o GPT 5.5 é superior. Eu só vinha usando o Claude Code (Opus 4.7)... Acho que vou ter que começar a usar o Codex pra valer também.

brainer 3 일 전

Na verdade, desde o GPT-5 ele já era superior, tirando planejamento e design de front-end.

A comunidade é que está bem atrasada nisso..

unknowncyder 2 일 전

Concordo. Até agora, o que senti na prática e a reação da comunidade foram opostos, então eu vinha sentindo uma certa discrepância.

love7peace 2 일 전

Pois é.

treestae 1 일 전

Há um ano eu recomendava muito o Claude, mas hoje em dia recomendo muito o app Codex.