24 pontos por GN⁺ 3 일 전 | 16 comentários | Compartilhar no WhatsApp
  • Está em andamento uma discussão na comunidade r/codex do Reddit comparando o desempenho de coding dos dois modelos, e a maioria dos usuários atualmente apoia a vantagem do GPT 5.5
  • O GPT 5.5 se destaca em estabilidade e precisão, enquanto o Opus 4.7 recebe muitas reclamações por queda recente de desempenho e limites de uso
  • Também há avaliações de que o Opus 4.7 ainda mantém uma leve vantagem na área de frontend/design de UI
  • Vários usuários apontam um rebaixamento de desempenho (“lobotomize”) do Claude (Opus) por falta de recursos computacionais, levantando dúvidas sobre sua confiabilidade
  • Também foi apresentada a opinião de que, como o desempenho dos modelos de IA continua melhorando, no longo prazo acessibilidade, preço, limites de uso e políticas de censura podem se tornar critérios de escolha mais importantes do que a vantagem atual

Comparação geral de desempenho em coding

  • A maioria dos comentários concorda que o GPT 5.5 está à frente em coding/programação de forma geral
  • O GPT 5.5 é rápido, competente e tem maior atenção aos detalhes do que o Opus 4.7
  • O GPT 5.5 é eficaz em correção de bugs e detecção de dependências ausentes
  • Há quem avalie que a capacidade pura de coding do Opus 4.7 seja parecida, mas ele teria uma tendência a ser “preguiçoso” e, às vezes, fazer apenas o mínimo necessário
  • O GPT 5.5 tende a avaliar o escopo de impacto do código e identificar os pontos a considerar antes de agir, enquanto o Opus 4.7 tende a partir rápido para uma solução intermediária

UI/frontend design

  • Em tarefas de design e frontend, o Opus 4.7 mostra resultados ligeiramente melhores
  • Ainda assim, há um caso em que o GPT 5.5 implementou um design de site de banda quase perfeitamente em one-shot, usando apenas o logo
  • O desempenho do Codex em trabalhos de UI/UX varia conforme a qualidade do prompt e a presença de pistas visuais
  • Como estratégia, recomenda-se usar o GPT 5.5 para construir a base e a estrutura e o Opus 4.7 para refinar o design do frontend
  • Também existe a sugestão de usar ferramentas gratuitas como o Meta Muse Spark para complementar a parte de UI

Problemas de estabilidade e limites de uso do Opus 4.7

  • Está bastante difundida a percepção de que o Opus 4.7 teve seu desempenho reduzido porque faltaram recursos computacionais com o forte aumento de novos usuários
  • Há muitas reclamações de que o 4.7 (e também o 4.6) foi enfraquecido repetidamente (nerfed)
  • Há relatos de muitas alucinações no modo max effort do Opus 4.7
  • Houve um caso em que um único prompt não concluído, em uma sessão de 18 minutos, consumiu 5 horas de limite de uso
  • A avaliação é de que o limite de uso do Opus no plano Claude Pro de US$ 20 é bastante apertado

Vantagens e desvantagens do GPT 5.5

  • O GPT 5.5 é estável e mantém qualidade consistente, sem regressões de desempenho
  • Há avaliações de usuários de que ainda não foi observado gerando informações falsas
  • Por outro lado, ele também teria uma tendência “preguiçosa” de fazer apenas o mínimo explicitamente pedido no prompt, exigindo prompts detalhados ou um processo prévio de planejamento e Q&A
  • Ele tende a consumir mais tokens
  • Em comparação com o GPT 5.4 (assinatura de US$ 20), o 5.5 consome o dobro do limite de uso, enquanto a melhora em benchmarks ficaria em apenas 2% a 5%, o que também levanta dúvidas sobre o custo-benefício

Comparação de preço e assinaturas

  • Para uso individual, há a opinião de que a assinatura ChatGPT Pro de US$ 100 oferece excelente custo-benefício
  • Recomenda-se a estratégia de combinar o Codex com Kimi de US$ 10 ou Gemini de US$ 22 para complementar o trabalho de UI
  • Se a pessoa já usa o armazenamento do Google, o Gemini fica na prática em torno de US$ 10 a US$ 15
  • Há também usuários considerando migrar completamente de uma conta Claude Max para o GPT Plus

Perspectiva de longo prazo

  • Nos próximos meses, todos os modelos, incluindo os chineses, devem alcançar pelo menos o nível do Opus 4.6, possivelmente com preços mais baixos
  • Mais do que o desempenho do modelo em si, acessibilidade, preço, limites de uso, censura e capacidade de entender contexto devem se tornar fatores de diferenciação mais importantes
  • Embora o GPT 5.5 esteja à frente agora, existe a preocupação de que, assim como o Claude perdeu desempenho após seu auge no passado, o Codex também possa ser rebaixado em breve
  • Também há interesse em comparações com outros modelos como Kimi 2.6, GLM e MiniMax

16 comentários

 
dicebattle 1 일 전

Eles acham que ninguém vai perceber mesmo se reduzirem o desempenho com um patch silencioso, mas, na verdade, a intuição das pessoas é mais afiada do que parece; juntando a minha impressão com o que o pessoal da comunidade anda dizendo, a resposta aparece na hora.

No fim, é aquele negócio de "então o que você consegue fazer, hein? kkk", então a gente acaba usando porque não tem muito jeito....

 
funnycat 2 일 전

Desde a versão 3.5, sempre usei o Claude como principal, mas a partir da 5.5 comecei a usar o GPT como principal. Achei bem bom.

 
tkddls8848 2 일 전

Que tal usar o Claude só para planejar e o Codex só para executar?

 
cosine20 2 일 전

É assim que tenho feito ultimamente. Mas a política de sandbox do Codex CLI é rígida demais, então acaba sendo bem incômodo deixar até o build e os testes por conta dele.

 
kaydash 2 일 전

Os dois falam de um jeito irritante pra caramba. Fora isso, os dois são preguiçosos também, até deixam de fora o que foi pedido enquanto fazem.

 
jimmy2056 2 일 전

Isso é totalmente parecido com o que eu senti também, então estou pagando o plano de 100 dólares do GPT para usar
E estou pensando em baixar o do Claude, que custa 200 dólares, para o de 100.

 
mse9000 2 일 전

O codex 5.4 falava coreano de um jeito estranho, mas em desempenho já era superior ao opus 4.6 e ao opus 4.7 (esse jeito esquisito de falar era uma barreira de entrada / coisas como "abri", "fechei", "vou empurrar" etc.)

No codex 5.5, o jeito de falar foi normalizado e ele ficou muito mais cuidadoso e inteligente. opus 4.7 = dá muito a sensação de que ele é preguiçoso e tenta economizar custo de raciocínio, e na prática até parece ter regredido em relação ao opus 4.6.

 
dicebattle 1 일 전

Na época do modelo 5.3 exclusivo do codex, parecia mesmo que eu estava conversando com um funcionário subordinado que não tinha nenhuma habilidade de comunicação, mas codava bem.
A partir do 5.4 ele começou a falar um pouco, e desde o 5.5 parece que está com a cabeça no lugar pela metade.
Ainda chama API de contrato, e às vezes solta frases misturando inglês e coreano de um jeito maluco, então às vezes preciso escrever algo como "explique de um jeito fácil de entender, falando com o mínimo possível de inglês".

Mesmo assim, na minha percepção, o desempenho para gerar código passou o opus a partir do 5.4. Saiu o opus 4.7, mas nem testei por curiosidade. Já parece óbvio que vai ser mais uma daquelas ações de marketing no estilo "Anthropic".

 
cosine20 2 일 전

Na verdade, o Opus 4.6 e 4.7 é que começaram a ficar estranhos em coreano kkk

 
bungker 2 일 전

Para quem já montou um harness com Claude, Claude é melhor; se vai usar pela primeira vez, aí o GPT acaba sendo melhor. Em custo-benefício, o GPT ganha de lavada, e até o plano de 20 dólares já é suficiente.

 
memevibe82 2 일 전

Acho que, para quem já desenvolvia antes, o GPT 5.5 é melhor.

Para quem não é desenvolvedor, o Claude é melhor.

Mas não precisa discutir tanto sobre isso.

O melhor mesmo é criar algo útil..

 
rkjun 3 일 전

No geral, parece que o consenso está indo na direção de que o GPT 5.5 é superior. Eu só vinha usando o Claude Code (Opus 4.7)... Acho que vou ter que começar a usar o Codex pra valer também.

 
brainer 3 일 전

Na verdade, desde o GPT-5 ele já era superior, tirando planejamento e design de front-end.

A comunidade é que está bem atrasada nisso..

 
unknowncyder 2 일 전

Concordo. Até agora, o que senti na prática e a reação da comunidade foram opostos, então eu vinha sentindo uma certa discrepância.

 
love7peace 2 일 전

Pois é.

 
treestae 1 일 전

Há um ano eu recomendava muito o Claude, mas hoje em dia recomendo muito o app Codex.