Review hands-on do GPT-5 da Every

(every.to)

11 pontos por GN⁺ 2025-08-08 | Ainda não há comentários. | Compartilhar no WhatsApp

GPT-5 é avaliado como o melhor modelo para a maioria dos usuários em geral no ChatGPT, com grandes melhorias em velocidade, simplicidade e qualidade das respostas
Nos preços de API, garantiu forte competitividade de preço em relação aos concorrentes; em especial, o GPT-5-mini é mais barato que o Google Gemini 2.5 Flash, e o GPT-5 Standard é 12 vezes mais barato que o Claude 4 Opus
É excelente em tarefas do dia a dia, pair programming, pesquisa e depuração, mas tem limitações em programação agentic e avaliação da qualidade de texto
Na análise da equipe, o GPT-5 mostrou pontos fortes em tarefas bem definidas, merge de código, redação de rascunhos e análise profunda, mas deixou a desejar em trabalho autônomo de longa duração e desenvolvimento criativo em larga escala
Em testes de benchmark, teve ótimo desempenho em resolução de problemas específicos, implementação de funcionalidades de apps e capacidade de pesquisa, mas em jogos, design de UI e consistência na escrita, o Opus 4.1 recebeu avaliação superior

GPT-5 no ChatGPT

A velocidade é a característica mais marcante: responde imediatamente a consultas simples e, em pedidos complexos, aumenta o próprio tempo de raciocínio para fornecer respostas mais profundas
O menu de seleção de modelos foi removido e foi adotado um sistema de troca automática (auto-switcher), que escolhe automaticamente entre versões sem raciocínio e com raciocínio conforme o pedido
- Perguntas simples de conhecimento usam a versão rápida sem raciocínio
- Pedidos complexos de geração, programação e análise usam a versão com raciocínio
As respostas são organizadas com foco em legibilidade, com subtítulos estruturados, espaçamento e texto em negrito
No Canvas, é possível gerar um app frontend de uma vez só (one-shot), mas existem limite de 1.000 linhas de código e algumas restrições de funcionalidade
Ao oferecer um modelo de reasoning como gratuito e padrão, eleva a qualidade da experiência de IA para o grande público

GPT-5 na API

GPT-5-mini: $0.25 por 1 milhão de tokens de entrada → mais barato que o Google Gemini 2.5 Flash ($0.30)
GPT-5 Standard: $1.25 por 1 milhão de tokens de entrada → mesmo preço do Google Gemini 2.5 Pro e 1/12 do Claude 4 Opus ($15)
O preço por token de saída é maior que o do o4-mini, mas a capacidade de seguir instruções (steerability) é excelente, com vantagem em tarefas que exigem direcionamento detalhado
Pela relação custo-benefício, há grande chance de atrair para a API usuários de concorrentes

Engenharia agentic

É excelente em tarefas precisas de backend, depuração e compreensão de código, mas é ineficiente para escrita autônoma de código de longo prazo e grandes tarefas de frontend
Cursor e Codex CLI são projetados mais para pair programming do que para desenvolvimento totalmente autônomo (fully agentic)
Em comparação com o Claude Code, falta persistência e autonomia em trabalhos longos, e a velocidade para lidar com grande volume de trabalho é menor

Avaliação detalhada por caso de uso

Tarefas do dia a dia: perguntas e respostas rápidas sem necessidade de escolher modelo, tratamento abrangente de questões que exigem pesquisa e menor frequência de alucinações
Pair programming: excelente para corrigir bugs, implementar funcionalidades e entender codebases grandes, com alta velocidade e precisão
Escrita: menos padrões de frase típicos de IA e maior variedade de expressão, adequado para rascunhos, com capacidade de aprender estilos específicos
Engenharia agentic: em projetos longos e geração autônoma de código, para com frequência e a qualidade da saída é baixa
Edição de texto: baixa confiabilidade por falta de consistência na avaliação da qualidade do texto e na naturalidade das frases

Insights da mesa-redonda da equipe

Kieran Klaassen (chefe da Cora): o GPT-5 é adequado para trabalho iterativo com instruções detalhadas, a ponto de substituir o Sonnet 3.5

"O GPT-5 faz exatamente o que você manda. Com cuidado, em pequenos passos, sem nunca sair do rumo — e esse é justamente o meu problema com ele. É forte para programar, mas não foi otimizado para agentic. Em um processo de desenvolvimento iterativo mais tradicional, é fácil de conduzir: 'isso ficou bom, agora faça aquilo'. Mas era assim que se trabalhava com IA em 2024. O GPT-5 não é um salto para o futuro; é um matador de Sonnet 3.5."
Danny Aziz (chefe da Spiral): é ideal para tarefas com escopo definido, como merges complexos de código; para revisões longas e análises de grande escala, prefere Claude

"O momento mágico do GPT-5 foi quando ele mesclou duas codebases complexas. O framework open source que eu usava não fazia o que eu queria, então pedi para combinar o código de outro framework. Não terminou tudo de uma vez, mas deu uma sensação de colaboração, como se estivéssemos avançando juntos até o objetivo. Gosto de usar o GPT-5 em tarefas de programação claras e bem definidas. Para trabalho agentic de longo prazo, como code review, ainda uso Claude Code, mas quando travo ou não quero pensar tão a fundo, o GPT-5 me leva até o destino."
Alex Duffy (chefe de educação em IA): para usuários gratuitos, é um grande upgrade em relação ao GPT-4o; forte em processamento de grandes volumes de dados e tarefas estruturadas

"Para o consumidor, o GPT-5 é claramente um upgrade em relação ao GPT-4o. Para usuários gratuitos, a diferença é bem perceptível. Usuários profissionais ainda podem recorrer a ferramentas especializadas como o3 ou Opus, mas para desenvolvedores o valor do GPT-5 está em ser um modelo confiável e obediente ao prompt. Ele é especialmente adequado para resumir e organizar grandes quantidades de informação com alta qualidade. O preço do token de saída é mais alto que o do o4-mini, mas em compensação ele segue instruções muito melhor. O GPT-5-mini consegue competir em preço com o Flash e, se a velocidade acompanhar, pode virar um verdadeiro azarão."
Naveen Naidu (EIR): resolveu, em colaboração com o GPT-5, um bug de congelamento de app que não conseguia solucionar havia 4 dias

"No meu app de ditado por IA, o 'Monologue', eu não conseguia encontrar um bug de congelamento havia 4 dias. Passei 4 horas só no domingo tentando com Claude Code e falhei. Com o GPT-5, foi como colaborar com um colega para rastrear exatamente onde estava o problema, e no fim encontramos o bug correto."
Katie Parrott (escritora e líder de operações de IA): ficou mais satisfeita com o GPT-5 do que com o Opus para escrever primeiros rascunhos; é forte em entrevistas e desenho de perguntas, mas vibe coding é ineficiente

"Usei o GPT-5 para transformar um outline em primeiro rascunho e gostei do resultado. Depois de alguns prompts ensinando o estilo da Every, pedi algo como 'um cruzamento entre uma matéria da Atlantic e um post popular do Hacker News', e o resultado foi forte. Aqueles padrões batidos de texto de IA, como 'It’s not just X, but Y', apareceram menos. Ele também me ajudou muito a estruturar perguntas em entrevistas. Para rascunhos, fiquei mais satisfeita com o GPT-5 do que com o Opus.
Mas, ao fazer vibe coding no Codex, ele foi menos eficiente. Tentava trabalhar apenas em unidades pequenas e eu precisava apertar 'continuar' toda hora. Também não explicava o plano dos próximos passos como o Claude faz."
Yash Poojary (chefe da Sparkle): deixa a desejar em código Swift, mas é o melhor em análise técnica complexa, arquitetura e avaliação de trade-offs

"Para mim, Swift é o que importa. No começo, o GPT-5 não me impressionou. Só ficou realmente utilizável quando recebeu um prompt de configuração específico. Ainda assim, em código Swift ele não chega a substituir o Claude.
Porém, em pesquisa pura, foi o melhor. Por exemplo, quando perguntei como encontrar arquivos duplicados no Mac, ele deu a análise tecnicamente mais precisa que já vi em uma IA. Parecia um arquiteto de sistemas com QI 140 explicando todas as lições aprendidas depois de construir o sistema três vezes. Para implementação pura, eu usaria Claude; mas para contexto profundo, análise de trade-offs e discussões de design, eu usaria GPT-5."
Mãe do Dan (perspectiva de usuária comum): avaliou que quantidade de informação, legibilidade e fluidez estão entre as melhores já vistas no ChatGPT

"Esse modelo é realmente impressionante. É muito mais abrangente do que qualquer resposta que já recebi no ChatGPT. A informação é fácil de ler e o fluxo é suave. Esse modelo é ouro puro."

Resultados detalhados de benchmark

Avaliação de escrita: falta consistência nos resultados mesmo para o mesmo texto, com confiabilidade inferior à do Opus
Criação de jogo em one-shot: roda de forma estável, mas falta criatividade e diversão; o Opus 4.1 foi melhor avaliado
AI Diplomacy: o desempenho com prompt padrão é baixo, mas com instruções otimizadas fica no nível do Flash; a steerability é um ponto forte
Quebra-cabeça impossível: resolveu em 1 minuto e 10 segundos, muito mais rápido que o o3
Criação de app musical em one-shot: implementou recursos semelhantes aos do GarageBand; a UI é simples, e o design do Opus 4 foi preferido
Outros testes: nos benchmarks Pelican on a bicycle e thup, a diferença de perfil em relação ao Claude ficou bem clara

Review hands-on do GPT-5 da Every

GPT-5 no ChatGPT

GPT-5 na API

Engenharia agentic

Avaliação detalhada por caso de uso

Insights da mesa-redonda da equipe

Resultados detalhados de benchmark

Leituras relacionadas

Ainda não há comentários.