1 pontos por GN⁺ 2025-08-08 | 1 comentários | Compartilhar no WhatsApp
  • GPT-5 API foi oficialmente lançado, oferecendo aos desenvolvedores um novo nível de desempenho em codificação e em tarefas de agente.
  • Em avaliações principais como SWE-bench Verified e Aider polyglot, registrou SOTA (melhor desempenho) e comprovou excelência em vários casos de clientes, como Cursor, Windsurf e Vercel.
  • Mostrou-se forte em trabalhos de agente de execução longa, integração de ferramentas sofisticada e processamento de contexto extenso em tarefas reais complexas.
  • Com parâmetros detalhados como verbosity, reasoning_effort e suporte a ferramentas customizadas, é possível um controle personalizado para desenvolvedores.
  • Com gpt-5, gpt-5-mini, gpt-5-nano, oferece diferentes opções de custo e desempenho e foi integrado à Microsoft e a diversas ferramentas de desenvolvimento.

Lançamento e importância do GPT-5

  • A OpenAI lançou o GPT-5 na plataforma de API, destacando que é o modelo com melhor desempenho para codificação e tarefas de agente entre os modelos lançados até hoje.
  • Ele obteve SOTA (melhor desempenho) em benchmarks principais de codificação e foi treinado em parceria com testadores reais de startups e empresas.
  • Demonstrou excelente atuação como parceiro em operações reais de desenvolvimento, como geração de código, correção de bugs, edição de código e consulta em bases de código complexas.
  • Melhorou a capacidade de seguir instruções detalhadas com precisão, explicando o comportamento e o planejamento antes e depois de chamadas de ferramentas.
  • O desempenho em desenvolvimento frontend também se destacou, recebendo avaliação de 70% superior ao modelo anterior em testes internos.

Principais clientes e casos de uso reais

  • Cursor, Windsurf, Vercel, Manus, Notion e Inditex avaliaram como alta a inteligência, a facilidade de ajuste, o tratamento de erros de ferramentas e a qualidade do código do GPT-5.
  • Em cenários reais de produção, mostrou estabilidade e eficiência superiores às de modelos anteriores em tarefas de background complexas, funções de agente de longa execução e integração refinada de ferramentas.

Benchmarks e métricas de desempenho

  • SWE-bench Verified (correção de issues reais de software): desempenho de 74,9%, com 22% menos tokens e 45% menos chamadas de ferramentas em relação ao o3, melhorando a eficiência.
  • Aider polyglot (avaliação de edição de código): atingiu 88%, alcançando uma taxa de erro de aproximadamente 1/3 em comparação com o o3.
  • Em análise de bases de código complexas e para aprimorar grandes LLMs conforme a pergunta do solicitante, facilita o uso por desenvolvedores e pesquisadores.
  • A geração de código frontend teve vantagem de 70% em testes, tanto em sensibilidade estética quanto em precisão.

Trabalho com agentes e desempenho em contexto longo

  • No τ2-bench telecom (benchmark de chamadas de ferramenta), marcou 96,7%, estabelecendo novo SOTA.
  • Alta capacidade de conclusão de tarefas com dezenas de chamadas de ferramenta executadas de forma sequencial ou paralela.
  • Nos testes de cumprimento de instruções do COLLIE, Scale MultiChallenge, alcançou a maior pontuação.
  • Em OpenAI-MRCR, BrowseComp Long Context e similares, superou o3 e GPT-4.1 em Q&A de contexto longo.
  • Suporta comprimento de contexto de até 400.000 tokens, adequado para análise de documentos e conversas em grande escala.

Confiabilidade e segurança

  • Nos testes LongFact, FactScore, houve redução de mais de 80% em erros factuais em comparação com o o3.
  • Reconhece e sinaliza suas próprias limitações e reforçou a precisão, especialmente em perguntas de saúde.
  • Ainda é recomendada a validação pelo desenvolvedor em áreas ainda críticas no uso real.

Controle para desenvolvedores e novidades da API

  • reasoning_effort: permite ajustar o equilíbrio entre velocidade de resposta e qualidade de raciocínio com os valores minimal/low/medium/high.
    • minimal: resposta rápida, high: raciocínio lógico de alta qualidade
  • verbosity: ajusta o comprimento da saída com low/medium/high.
    • Instruções explícitas têm prioridade sobre o parâmetro quando houver conflito.
  • Ferramentas personalizadas: também oferece suporte a formato plaintext além de JSON, com restrições de formato de entrada de ferramentas via regex ou Context-Free Grammar.
  • Em grandes blocos de código/relatórios, minimiza preocupações com erros de escape de JSON e melhora a facilidade de integração com ferramentas de desenvolvimento.

Modelos da API e política de preços

  • gpt-5: US$ 1,25 por milhão de tokens de entrada, US$ 10 por milhão de tokens de saída
  • gpt-5-mini: US$ 0,25 por milhão de tokens de entrada, US$ 2 por milhão de tokens de saída
  • gpt-5-nano: US$ 0,05 por milhão de tokens de entrada, US$ 0,40 por milhão de tokens de saída
  • Todos os modelos oferecem suporte a reasoning_effort, verbosity, ferramentas personalizadas, chamadas paralelas de ferramentas, ferramentas integradas de web/arquivo/imagem e streaming, entre outras funcionalidades principais.
  • gpt-5-chat-latest foi lançado como modelo de ChatGPT sem foco em raciocínio, com o mesmo preço.

Integração e escalabilidade

  • O lançamento ocorreu com integração em várias plataformas da Microsoft, incluindo Microsoft 365 Copilot, GitHub Copilot, Azure AI Foundry.
  • Aplicado como motor central de sistemas de agente de desenvolvedor, como Cursor, Windsurf, GitHub Copilot, Codex CLI.
  • Avaliações internas com alpha testers e diversos produtos de automação de código e de trabalho apresentaram um novo padrão em comparação com modelos anteriores.

Segurança, confiabilidade e materiais adicionais

  • A chance de resposta incorreta (alucinação) foi reduzida significativamente, e o GPT-5 passa a descrever de forma mais honesta o processo de trabalho e suas limitações.
  • O card de sistema, blog interno de pesquisa e outros materiais disponibilizam de forma transparente detalhes de implementação, avaliação e medidas de segurança.
  • Também é um parceiro avançado de codificação automática, especializado em automação de fluxos de trabalho agentivos complexos.

Conclusão

  • O GPT-5 é o modelo mais forte até hoje para codificação e tarefas de agente entre os LLMs lançados até agora, e um parceiro inovador otimizado para ambientes reais de desenvolvimento e automação de trabalho.
  • Com a API e ecossistema de ferramentas evoluídos, variedade de capacidades e preços, e alto desempenho em avaliações, abre uma nova era de produtividade para desenvolvedores e organizações.

1 comentários

 
GN⁺ 2025-08-08
Comentários do Hacker News
  • Eu não senti uma diferença prática de especialização em desenvolvimento de software entre Opus e GPT-5, mas para mim o que importa de verdade é quão bem ele mantém o contexto por longos períodos e avança para o objetivo proposto. Em engenharia de software real, acho que esse ponto é o mais importante, e fico curioso para saber quais métricas de avaliação medem e validam isso com precisão.
    • Nos experimentos recentes da Charlie Labs com GPT-5 sobre manutenção de contexto em tarefas de longa duração, tivemos resultados muito bons. Ao pedir que resolvesse 10 issues no GitHub e comparar com o Claude Code, a diferença de desempenho foi surpreendentemente grande. Os detalhes da experiência estão em aqui. Em contextos complexos de 30 a 45 minutos, ele ainda acompanha bem mesmo quando a direção muda e lida bem com threads grandes do Linear ou do GitHub. Ainda que o número de issues seja baixo, foi muito impressionante, e vou continuar expandindo e medindo desempenho.
    • Faço isso de criar objetivos complexos com contexto que muda com frequência quase todos os dias, e é uma situação em que essa manutenção de contexto é essencial. Por outro lado, é uma pena que o GitHub Copilot esteja meio relegado entre as ferramentas de assistência de código existentes; ele não recebe tanta atenção em comparação com modelos da Anthropic, OpenAI e Google. Testei a função baseada na web spaces, que funcionou melhor em tarefas maiores do que no IDE. Mas o ponto fraco foi que coletar contexto e revisar resultados levou mais tempo do que quando eu faço isso, e acho que ele já tem potencial para destacar-se justamente em reunir e acumular contexto.
    • No momento atual, se os frontier LLMs recebem contexto suficiente, eles resolvem a maioria dos problemas. Quando falham, passo a maior parte do tempo entendendo qual contexto estava faltando. Então, o que eu preciso é uma capacidade de coletar contexto mais focada. No meu caso de uso, é importante focar em materiais realmente relevantes em arquivos de código, issues, PRs e discussões. Espero que o GPT-5 avance nesse ponto. Se ficar mais barato e com desempenho semelhante ou melhor que o Opus, melhor ainda.
    • A política de preços do GPT-5 melhorou bastante em relação ao Opus e agora ficou no nível do Gemini 2.5 Pro.
    • Se o GPT-5 realmente operar com contexto de 400k, parece suficiente para superá-lo de forma significativa.
  • Estou testando cenários de RAG com o gpt-5-mini e, até agora, está impressionante. Com a opção reasoning_effort="minimal", ele foi o único que não fabricou respostas onde os modelos anteriores só alucinavam. O screenshot relacionado está aqui. Mais adiante, vou fazer uma avaliação formal.
    • Na pergunta “O que um product manager faz?”, o GPT-4 deu uma resposta cheia de floreio sobre colaboração entre áreas, enquanto o GPT-5 respondeu “não sei”. Em uma frase, foi como se eu tivesse a sensação de que a IA realmente acordou.
    • Também confirmei que phi-4 e gemma-3n, em cenários de RAG, usam apenas o contexto fornecido e melhoraram na prevenção de alucinações, sem forçar respostas fora do contexto.
    • O maior avanço real está aqui, na minha visão. Eu trabalho com fluxos com muitas chamadas de ferramenta, e um grande problema era o modelo inventar chamadas falsas, além de pular a chamada da ferramenta e responder sem base. Parece que o treinamento recente está evoluindo de forma relevante no reforço de punição para alucinações e para pular chamadas de ferramenta.
  • Nos últimos 7 dias, fiz quase 70 horas de testes com várias ferramentas como Cursor e Claude Code. É realmente impressionante e mais confiável, mas o que continua funcionando de forma consistente no dia a dia é a linha de modelos Claude. Embora o benchmark diga outra coisa, na prática de uso real isso pesa mais. Fico animado para ver se os novos modelos GPT vão funcionar bem nesse caso; a concorrência está ficando mais acirrada e os preços melhores.
    • Com a atualização mais recente da ferramenta Cursor (1.4), modelos como o Gemini ficaram muito mais confiáveis no uso de ferramentas do que antes. Antes, erros frequentes apareciam até em ações básicas, como editar arquivos; agora, quase sempre funciona corretamente.
    • Acho que isso também depende do stack usado. Vi recentemente o vídeo de apresentação do Convex da t3.gg: vídeo, Convex. A estrutura do Convex ajuda a fazer as coisas funcionarem certo já na primeira tentativa, e ao usar de fato, concordei com isso. Penso que o fluxo de desenvolvimento vai mudar: em vez de mergulhar direto no código para maximizar o trabalho paralelo de várias IAs, vamos criar vários tickets em uma PM tool (parece que o Linear está em alta), deixar a IA filtrar quais podem ser executados em paralelo e, depois, trabalhar com vários tickets ao mesmo tempo no IDE ou no Warp. Eu ainda não mudei totalmente para esse método, mas acho que vou precisar fazer isso, e para isso git worktree é indispensável: material relacionado, documentação, blog
    • Fico curioso para saber até que ponto já cheguei a criar algo a ponto de eu dizer “isso é bom e confiável”. Setenta horas permitem chegar até um PoC, mas o que me interessa é a qualidade quando se continua adicionando funcionalidades.
    • Os modelos com reasoning da OpenAI têm melhor capacidade de código e resolução de problemas, mas o Claude Code parece mais prático de usar. Mesmo com um modelo mais fraco, acho que ele é mais adequado para uso real.
  • Se o desempenho em benchmark for bom, a política de preços também é muito atraente: entrada $1.25/milhão, entrada em cache $0.125/milhão, saída $10/milhão. Para referência, Claude Opus 4.1 é $15/milhão de entrada e $75/milhão de saída. Agora o ponto-chave é o quão bem ele usa ferramentas em comparação com Claude Code. O demo foi bom, mas no Tau2-bench airline ficou abaixo do o3, então ainda não dá para ter certeza.
    • No teste que fiz nas últimas horas, GPT-5 parece estar ficando melhor aos poucos em relação ao Opus 4.1. Depois de alguns meses com o plano Claude Code 200, a saída foi ficando cada vez mais frustrante, e acho que o GPT-5 está um passo à frente.
    • Mesmo funcionando com uma estrutura de dois ou mais submodelos, ele aplica um preço de token padronizado, o que me chama atenção. Na prática, parece uma precificação baseada em previsão de uso de modelos mais baratos; fico curioso para saber se esse modelo de preço vai se manter caso o usuário use mais vezes o modelo mais performático ou se a margem de preço foi definida com folga suficiente para não ser um problema.
    • Preço não é custo. O preço atual parece propositalmente baixo para conquistar participação de mercado e pode ficar longe do custo operacional real. Espero que boa parte dos US$ 40 bilhões recebidos em março seja usada nessa guerra de preços agressiva.
  • A frase de que o GPT-5 “quebrou o recorde no benchmark de chamada de ferramenta de tarefas agentic (τ2-bench telecom) com 96,7%” é destacada, mas no benchmark airline ele ficou abaixo do o3; a mensagem parece destacar só os pontos favoráveis para eles.
    • Como quem escreveu aquele gráfico e seção, quero reforçar que os dados de telecom realmente são bons. Nos benchmarks retail e airline, a avaliação automática é tão rígida que apenas uma resposta é tratada como correta para pontuar, e isso pode fazer com que boas soluções não recebam nota. O benchmark telecom pontua pelo estado final e aceita múltiplas respostas corretas, compensando a limitação da avaliação automática. O sinal de desempenho real do modelo fica mais claro, então focar em telecom faz sentido. Para conferir, vale ver também o paper do tau2-bench. Além disso, como não há pontuação parcial nessas avaliações, um erro pequeno pode impactar muito a nota total, então o desempenho real pode ficar acima ou abaixo da pontuação.
    • Em custo, fico curioso, já que o o3 parece caro para operar; se o GPT-5 for mais barato que ele, já pode ser uma melhoria significativa mesmo com performance próxima.
    • Como o baixo desempenho no airline também foi mencionado no texto, não acho que seja uma pergunta-piada.
  • Achei interessantes os suportes a CFG (gramática livre de contexto) e regex. Estou curioso para saber se há diferença em relação ao llguidance que implementa o JSON Schema da API da OpenAI, com aquela estrutura tipo Lark. Fonte relacionada
    • Da parte que mais espero nessa apresentação, está a CFG e a saída estruturada. Em outras frentes (API, Google, OpenAI etc.), essa parte ainda teve muitos problemas no uso real; quero testá-la o quanto antes.
    • O Cursor fica gratuito por alguns dias; como power user de codificação agentic em vários IDE/CLI, a combinação Cursor + GPT-5 me deu uma ótima sensação. Recomendo testar pessoalmente quando tiver tempo.
    • É surpreendente e muito interessante ter vindo a opção de impor diretamente CFG na saída. Fico curioso de como o token sampling força uma gramática correta.
    • Acho que deve ser uma abordagem de “geração estruturada” ou “guided generation”. Se você conseguir usar LLM diretamente, essa técnica já vinha sendo aplicada em exemplo 1, exemplo 2. O núcleo é oferecer, a cada etapa de geração de token, não o vocabulário inteiro, mas apenas o conjunto de tokens permitido pela gramática naquele ponto, como por exemplo, em JSON, após { oferecer apenas tokens válidos.
    • Em termos de geração, você mantém no pool de sampling apenas tokens válidos conforme as regras de produção da gramática. É uma restrição aplicada já no processo de inferência.
  • Comparar o GPT-5 só com a geração anterior dele, sem colocá-lo frente a modelos concorrentes no benchmark, me lembra a Apple comparando o iPhone apenas com a geração anterior do próprio iPhone.
  • Testei um problema difícil e o GPT-5 analisou e resolveu algo que o Gemini não conseguiu, mas depois errou em 6 tentativas na correção de código. Quando passei o resultado da análise do GPT-5 para o Google Gemini, ele gerou imediatamente o código de correção correto. Conclusão: ChatGPT analisa e revisa código muito bem, mas a capacidade de codar ainda fica abaixo do ideal.
    • Eu também fiz o mesmo problema com Gemini (GCA) e CoPilot (Claude). Ambos analisaram de forma semelhante e deram a mesma solução errada; mesmo quando apontei o erro, eles continuaram gerando uma solução ainda mais incorreta. Não usei ainda o ChatGPT, mas vou testar em breve.