25 pontos por GN⁺ 14 일 전 | 16 comentários | Compartilhar no WhatsApp
  • Está em andamento uma discussão na comunidade Reddit r/codex comparando o desempenho de coding dos dois modelos, e a maioria dos usuários atualmente apoia a vantagem do GPT 5.5
  • O GPT 5.5 se destaca em estabilidade e precisão, enquanto o Opus 4.7 recebe muitas reclamações por queda recente de desempenho e limitações de uso
  • Também há avaliações de que o Opus 4.7 ainda mantém uma pequena vantagem na área de frontend/design de UI
  • Vários usuários apontam um rebaixamento de desempenho (lobotomize) no Claude (Opus) por falta de recursos computacionais, levantando questões de confiabilidade
  • Também foi apresentada a opinião de que, como o desempenho dos modelos de IA continua melhorando, no longo prazo acessibilidade, preço, limite de uso e políticas de censura podem se tornar critérios de escolha mais importantes do que a vantagem atual

Comparação geral de desempenho em coding

  • A maioria dos comentários concorda que o GPT 5.5 está à frente em coding/programação de forma geral
  • O GPT 5.5 é rápido, competente e superior ao Opus 4.7 em atenção aos detalhes
  • O GPT 5.5 é eficaz em correção de bugs e detecção de dependências ausentes
  • Há quem avalie que o Opus 4.7 tenha capacidade bruta de coding semelhante, mas com uma tendência "preguiçosa (lazy)", às vezes executando apenas o mínimo necessário
  • O GPT 5.5 tende a avaliar o escopo de impacto do código e identificar considerações antes de agir, enquanto o Opus 4.7 tende a produzir rapidamente soluções medianas

UI/frontend design

  • Em tarefas de design e frontend, o Opus 4.7 apresenta resultados ligeiramente melhores
  • No entanto, também há um caso em que o GPT 5.5 implementou um design de site de banda de forma quase perfeita em one-shot, usando apenas o logotipo
  • O trabalho de UI/UX no Codex varia de acordo com a qualidade do prompting e com a presença de pistas visuais
  • Como estratégia, é recomendada a combinação de usar o GPT 5.5 para construir a base e a estrutura e o Opus 4.7 para refinar o design de frontend
  • Também há a sugestão de usar ferramentas gratuitas como Meta Muse Spark para complementar a parte de UI

Problemas de estabilidade e limites de uso do Opus 4.7

  • Existe uma percepção amplamente difundida de que o Opus 4.7 teve o desempenho reduzido porque faltaram recursos computacionais com o aumento repentino de novos usuários
  • Há muitas reclamações de que o 4.7 (e também o 4.6) foi enfraquecido repetidamente (nerfed)
  • Há relatos de muitas alucinações (hallucination) no modo max effort do Opus 4.7
  • Em um caso, um único prompt não concluído em uma sessão de 18 minutos consumiu 5 horas de limite de uso
  • Há avaliações de que o limite de uso do Opus no plano Claude Pro de $20 é muito apertado

Vantagens e desvantagens do GPT 5.5

  • O GPT 5.5 é estável e mantém qualidade consistente, sem regressões de desempenho
  • Há avaliação de usuário de que ainda não foi visto gerando informações falsas
  • Porém, ele também tem uma tendência "preguiçosa" de executar apenas o que foi explicitamente pedido no prompt, o que exige prompting detalhado ou um processo prévio de planejamento e perguntas e respostas
  • Ele tende a consumir mais tokens
  • Em comparação com o GPT 5.4 (assinatura de $20), o 5.5 consome o dobro do limite de uso, enquanto a melhora em benchmark fica na faixa de 2% a 5%, o que levanta dúvidas sobre o custo-benefício

Comparação de preços e assinaturas

  • Para uso individual, há a opinião de que a assinatura ChatGPT Pro de $100 tem excelente custo-benefício
  • Recomenda-se a estratégia de combinar Codex com Kimi de $10 ou Gemini de $22 para complementar trabalhos de UI
  • Se a pessoa já usa armazenamento do Google, o Gemini sai na prática por $10~15
  • Também há usuários considerando migrar totalmente de uma conta Claude Max para o GPT Plus

Perspectiva de longo prazo

  • Dentro de alguns meses, todos os modelos, incluindo os chineses, provavelmente chegarão ao nível do Opus 4.6 ou acima, possivelmente com preços mais baixos
  • Mais do que o desempenho do modelo em si, acessibilidade, preço, limite de uso, censura e capacidade de entender contexto tendem a se tornar os principais fatores de diferenciação
  • Embora o GPT 5.5 esteja à frente agora, há preocupação de que, assim como o Claude perdeu desempenho após o auge, o Codex também possa sofrer redução de desempenho em breve
  • Também existe interesse em comparações com outros modelos como Kimi 2.6, GLM e MiniMax

16 comentários

 
dicebattle 13 일 전

Eles acham que ninguém vai perceber mesmo se reduzirem o desempenho com um patch silencioso, mas, na verdade, a intuição das pessoas é mais afiada do que parece; juntando a minha impressão com o que o pessoal da comunidade anda dizendo, a resposta aparece na hora.

No fim, é aquele negócio de "então o que você consegue fazer, hein? kkk", então a gente acaba usando porque não tem muito jeito....

 
funnycat 13 일 전

Desde a versão 3.5, sempre usei o Claude como principal, mas a partir da 5.5 comecei a usar o GPT como principal. Achei bem bom.

 
tkddls8848 13 일 전

Que tal usar o Claude só para planejar e o Codex só para executar?

 
cosine20 13 일 전

É assim que tenho feito ultimamente. Mas a política de sandbox do Codex CLI é rígida demais, então acaba sendo bem incômodo deixar até o build e os testes por conta dele.

 
kaydash 13 일 전

Os dois falam de um jeito irritante pra caramba. Fora isso, os dois são preguiçosos também, até deixam de fora o que foi pedido enquanto fazem.

 
jimmy2056 13 일 전

Isso é totalmente parecido com o que eu senti também, então estou pagando o plano de 100 dólares do GPT para usar
E estou pensando em baixar o do Claude, que custa 200 dólares, para o de 100.

 
mse9000 13 일 전

O codex 5.4 falava coreano de um jeito estranho, mas em desempenho já era superior ao opus 4.6 e ao opus 4.7 (esse jeito esquisito de falar era uma barreira de entrada / coisas como "abri", "fechei", "vou empurrar" etc.)

No codex 5.5, o jeito de falar foi normalizado e ele ficou muito mais cuidadoso e inteligente. opus 4.7 = dá muito a sensação de que ele é preguiçoso e tenta economizar custo de raciocínio, e na prática até parece ter regredido em relação ao opus 4.6.

 
dicebattle 13 일 전

Na época do modelo 5.3 exclusivo do codex, parecia mesmo que eu estava conversando com um funcionário subordinado que não tinha nenhuma habilidade de comunicação, mas codava bem.
A partir do 5.4 ele começou a falar um pouco, e desde o 5.5 parece que está com a cabeça no lugar pela metade.
Ainda chama API de contrato, e às vezes solta frases misturando inglês e coreano de um jeito maluco, então às vezes preciso escrever algo como "explique de um jeito fácil de entender, falando com o mínimo possível de inglês".

Mesmo assim, na minha percepção, o desempenho para gerar código passou o opus a partir do 5.4. Saiu o opus 4.7, mas nem testei por curiosidade. Já parece óbvio que vai ser mais uma daquelas ações de marketing no estilo "Anthropic".

 
cosine20 13 일 전

Na verdade, o Opus 4.6 e 4.7 é que começaram a ficar estranhos em coreano kkk

 
bungker 14 일 전

Para quem já montou um harness com Claude, Claude é melhor; se vai usar pela primeira vez, aí o GPT acaba sendo melhor. Em custo-benefício, o GPT ganha de lavada, e até o plano de 20 dólares já é suficiente.

 
memevibe82 14 일 전

Acho que, para quem já desenvolvia antes, o GPT 5.5 é melhor.

Para quem não é desenvolvedor, o Claude é melhor.

Mas não precisa discutir tanto sobre isso.

O melhor mesmo é criar algo útil..

 
rkjun 14 일 전

No geral, parece que o consenso está indo na direção de que o GPT 5.5 é superior. Eu só vinha usando o Claude Code (Opus 4.7)... Acho que vou ter que começar a usar o Codex pra valer também.

 
brainer 14 일 전

Na verdade, desde o GPT-5 ele já era superior, tirando planejamento e design de front-end.

A comunidade é que está bem atrasada nisso..

 
unknowncyder 13 일 전

Concordo. Até agora, o que senti na prática e a reação da comunidade foram opostos, então eu vinha sentindo uma certa discrepância.

 
love7peace 13 일 전

Pois é.

 
treestae 12 일 전

Há um ano eu recomendava muito o Claude, mas hoje em dia recomendo muito o app Codex.