Review hands-on do GPT-5 da Every
(every.to)- GPT-5 é avaliado como o melhor modelo para a maioria dos usuários em geral no ChatGPT, com grandes melhorias em velocidade, simplicidade e qualidade das respostas
- Nos preços de API, garantiu forte competitividade de preço em relação aos concorrentes; em especial, o GPT-5-mini é mais barato que o Google Gemini 2.5 Flash, e o GPT-5 Standard é 12 vezes mais barato que o Claude 4 Opus
- É excelente em tarefas do dia a dia, pair programming, pesquisa e depuração, mas tem limitações em programação agentic e avaliação da qualidade de texto
- Na análise da equipe, o GPT-5 mostrou pontos fortes em tarefas bem definidas, merge de código, redação de rascunhos e análise profunda, mas deixou a desejar em trabalho autônomo de longa duração e desenvolvimento criativo em larga escala
- Em testes de benchmark, teve ótimo desempenho em resolução de problemas específicos, implementação de funcionalidades de apps e capacidade de pesquisa, mas em jogos, design de UI e consistência na escrita, o Opus 4.1 recebeu avaliação superior
GPT-5 no ChatGPT
- A velocidade é a característica mais marcante: responde imediatamente a consultas simples e, em pedidos complexos, aumenta o próprio tempo de raciocínio para fornecer respostas mais profundas
- O menu de seleção de modelos foi removido e foi adotado um sistema de troca automática (auto-switcher), que escolhe automaticamente entre versões sem raciocínio e com raciocínio conforme o pedido
- Perguntas simples de conhecimento usam a versão rápida sem raciocínio
- Pedidos complexos de geração, programação e análise usam a versão com raciocínio
- As respostas são organizadas com foco em legibilidade, com subtítulos estruturados, espaçamento e texto em negrito
- No Canvas, é possível gerar um app frontend de uma vez só (one-shot), mas existem limite de 1.000 linhas de código e algumas restrições de funcionalidade
- Ao oferecer um modelo de reasoning como gratuito e padrão, eleva a qualidade da experiência de IA para o grande público
GPT-5 na API
- GPT-5-mini: $0.25 por 1 milhão de tokens de entrada → mais barato que o Google Gemini 2.5 Flash ($0.30)
- GPT-5 Standard: $1.25 por 1 milhão de tokens de entrada → mesmo preço do Google Gemini 2.5 Pro e 1/12 do Claude 4 Opus ($15)
- O preço por token de saída é maior que o do o4-mini, mas a capacidade de seguir instruções (steerability) é excelente, com vantagem em tarefas que exigem direcionamento detalhado
- Pela relação custo-benefício, há grande chance de atrair para a API usuários de concorrentes
Engenharia agentic
- É excelente em tarefas precisas de backend, depuração e compreensão de código, mas é ineficiente para escrita autônoma de código de longo prazo e grandes tarefas de frontend
- Cursor e Codex CLI são projetados mais para pair programming do que para desenvolvimento totalmente autônomo (fully agentic)
- Em comparação com o Claude Code, falta persistência e autonomia em trabalhos longos, e a velocidade para lidar com grande volume de trabalho é menor
Avaliação detalhada por caso de uso
- Tarefas do dia a dia: perguntas e respostas rápidas sem necessidade de escolher modelo, tratamento abrangente de questões que exigem pesquisa e menor frequência de alucinações
- Pair programming: excelente para corrigir bugs, implementar funcionalidades e entender codebases grandes, com alta velocidade e precisão
- Escrita: menos padrões de frase típicos de IA e maior variedade de expressão, adequado para rascunhos, com capacidade de aprender estilos específicos
- Engenharia agentic: em projetos longos e geração autônoma de código, para com frequência e a qualidade da saída é baixa
- Edição de texto: baixa confiabilidade por falta de consistência na avaliação da qualidade do texto e na naturalidade das frases
Insights da mesa-redonda da equipe
- Kieran Klaassen (chefe da Cora): o GPT-5 é adequado para trabalho iterativo com instruções detalhadas, a ponto de substituir o Sonnet 3.5
"O GPT-5 faz exatamente o que você manda. Com cuidado, em pequenos passos, sem nunca sair do rumo — e esse é justamente o meu problema com ele. É forte para programar, mas não foi otimizado para agentic. Em um processo de desenvolvimento iterativo mais tradicional, é fácil de conduzir: 'isso ficou bom, agora faça aquilo'. Mas era assim que se trabalhava com IA em 2024. O GPT-5 não é um salto para o futuro; é um matador de Sonnet 3.5."
- Danny Aziz (chefe da Spiral): é ideal para tarefas com escopo definido, como merges complexos de código; para revisões longas e análises de grande escala, prefere Claude
"O momento mágico do GPT-5 foi quando ele mesclou duas codebases complexas. O framework open source que eu usava não fazia o que eu queria, então pedi para combinar o código de outro framework. Não terminou tudo de uma vez, mas deu uma sensação de colaboração, como se estivéssemos avançando juntos até o objetivo. Gosto de usar o GPT-5 em tarefas de programação claras e bem definidas. Para trabalho agentic de longo prazo, como code review, ainda uso Claude Code, mas quando travo ou não quero pensar tão a fundo, o GPT-5 me leva até o destino."
- Alex Duffy (chefe de educação em IA): para usuários gratuitos, é um grande upgrade em relação ao GPT-4o; forte em processamento de grandes volumes de dados e tarefas estruturadas
"Para o consumidor, o GPT-5 é claramente um upgrade em relação ao GPT-4o. Para usuários gratuitos, a diferença é bem perceptível. Usuários profissionais ainda podem recorrer a ferramentas especializadas como o3 ou Opus, mas para desenvolvedores o valor do GPT-5 está em ser um modelo confiável e obediente ao prompt. Ele é especialmente adequado para resumir e organizar grandes quantidades de informação com alta qualidade. O preço do token de saída é mais alto que o do o4-mini, mas em compensação ele segue instruções muito melhor. O GPT-5-mini consegue competir em preço com o Flash e, se a velocidade acompanhar, pode virar um verdadeiro azarão."
- Naveen Naidu (EIR): resolveu, em colaboração com o GPT-5, um bug de congelamento de app que não conseguia solucionar havia 4 dias
"No meu app de ditado por IA, o 'Monologue', eu não conseguia encontrar um bug de congelamento havia 4 dias. Passei 4 horas só no domingo tentando com Claude Code e falhei. Com o GPT-5, foi como colaborar com um colega para rastrear exatamente onde estava o problema, e no fim encontramos o bug correto."
- Katie Parrott (escritora e líder de operações de IA): ficou mais satisfeita com o GPT-5 do que com o Opus para escrever primeiros rascunhos; é forte em entrevistas e desenho de perguntas, mas vibe coding é ineficiente
"Usei o GPT-5 para transformar um outline em primeiro rascunho e gostei do resultado. Depois de alguns prompts ensinando o estilo da Every, pedi algo como 'um cruzamento entre uma matéria da Atlantic e um post popular do Hacker News', e o resultado foi forte. Aqueles padrões batidos de texto de IA, como 'It’s not just X, but Y', apareceram menos. Ele também me ajudou muito a estruturar perguntas em entrevistas. Para rascunhos, fiquei mais satisfeita com o GPT-5 do que com o Opus.
Mas, ao fazer vibe coding no Codex, ele foi menos eficiente. Tentava trabalhar apenas em unidades pequenas e eu precisava apertar 'continuar' toda hora. Também não explicava o plano dos próximos passos como o Claude faz." - Yash Poojary (chefe da Sparkle): deixa a desejar em código Swift, mas é o melhor em análise técnica complexa, arquitetura e avaliação de trade-offs
"Para mim, Swift é o que importa. No começo, o GPT-5 não me impressionou. Só ficou realmente utilizável quando recebeu um prompt de configuração específico. Ainda assim, em código Swift ele não chega a substituir o Claude.
Porém, em pesquisa pura, foi o melhor. Por exemplo, quando perguntei como encontrar arquivos duplicados no Mac, ele deu a análise tecnicamente mais precisa que já vi em uma IA. Parecia um arquiteto de sistemas com QI 140 explicando todas as lições aprendidas depois de construir o sistema três vezes. Para implementação pura, eu usaria Claude; mas para contexto profundo, análise de trade-offs e discussões de design, eu usaria GPT-5." - Mãe do Dan (perspectiva de usuária comum): avaliou que quantidade de informação, legibilidade e fluidez estão entre as melhores já vistas no ChatGPT
"Esse modelo é realmente impressionante. É muito mais abrangente do que qualquer resposta que já recebi no ChatGPT. A informação é fácil de ler e o fluxo é suave. Esse modelo é ouro puro."
Resultados detalhados de benchmark
- Avaliação de escrita: falta consistência nos resultados mesmo para o mesmo texto, com confiabilidade inferior à do Opus
- Criação de jogo em one-shot: roda de forma estável, mas falta criatividade e diversão; o Opus 4.1 foi melhor avaliado
- AI Diplomacy: o desempenho com prompt padrão é baixo, mas com instruções otimizadas fica no nível do Flash; a steerability é um ponto forte
- Quebra-cabeça impossível: resolveu em 1 minuto e 10 segundos, muito mais rápido que o o3
- Criação de app musical em one-shot: implementou recursos semelhantes aos do GarageBand; a UI é simples, e o design do Opus 4 foi preferido
- Outros testes: nos benchmarks Pelican on a bicycle e thup, a diferença de perfil em relação ao Claude ficou bem clara
Ainda não há comentários.