14 pontos por GN⁺ 2025-08-08 | 5 comentários | Compartilhar no WhatsApp
  • GPT-5 oferece desempenho superior aos modelos anteriores em todas as áreas, como programação, matemática, escrita, saúde e percepção visual, com um sistema integrado que combina respostas rápidas e raciocínio profundo conforme o contexto
  • ‘GPT-5 Thinking’ aplica raciocínio mais longo a problemas complexos para aumentar a precisão, e usuários do plano Pro podem usar o GPT-5 Pro, uma versão expandida, para obter o mais alto nível de desempenho
  • No uso real, reduziu significativamente a taxa de alucinações (geração de fatos incorretos), além de melhorar a compreensão multimodal, a execução de instruções e a capacidade de lidar com tarefas complexas envolvendo ferramentas
  • O suporte a desenvolvedores foi reforçado em áreas como geração de UI frontend e depuração em larga escala, e na área de saúde atingiu a maior pontuação no HealthBench, atuando como um parceiro de saúde mais ativo
  • Em segurança, introduziu o treinamento de ‘safe completion’ (conclusão segura) para reduzir recusas desnecessárias e conta com um sistema de múltiplas defesas de alto nível nas áreas de biologia e química

Visão geral do GPT-5

Sistema integrado

  • Um único sistema inclui um modelo inteligente e eficiente, um modelo de raciocínio profundo (GPT-5 Thinking) e um roteador em tempo real que escolhe entre eles conforme a situação, a complexidade, a necessidade de ferramentas e a intenção do usuário
  • Quando o limite de uso é excedido, as versões ‘mini’ de cada modelo passam a atender as consultas restantes
  • No futuro, esses recursos serão integrados em um único modelo

Melhorias de desempenho e usabilidade

  • Desempenho amplamente superior ao GPT-4o em diversos benchmarks
  • Redução de alucinações, melhor execução de instruções e minimização de respostas bajuladoras (sycophancy)
  • Melhoria em três áreas principais
    • Programação: fortalecimento da capacidade de gerar interfaces frontend complexas, depurar grandes repositórios e criar UI/UX com senso estético
    • Escrita: capacidade de lidar com ambiguidades estruturais e produzir textos com profundidade literária e ritmo, além de melhor suporte para redação e edição de documentos do dia a dia
    • Saúde: recorde no HealthBench, com respostas seguras e precisas ajustadas ao contexto, ao nível de conhecimento e à região

Resultados de avaliação

  • Matemática 94.6% (AIME 2025), programação 74.9% no SWE-bench Verified, multimodal 84.2% no MMMU, saúde 46.2% no HealthBench Hard, alcançando SOTA
  • No GPQA, o GPT-5 Pro registrou o melhor resultado, com 88.4%
  • Grande melhoria na capacidade de lidar com multimodalidade, integração com ferramentas e tarefas em múltiplas etapas

Raciocínio eficiente

  • Redução de 50~80% no uso de tokens para o mesmo nível de desempenho
  • Em tarefas complexas e de alta dificuldade, o GPT-5 Thinking reduz de forma significativa a taxa de erros e de alucinações em comparação com o o3

Maior confiabilidade e factualidade

  • Em testes abertos de factualidade, a taxa de alucinação caiu 6 vezes
  • Explica com clareza suas limitações em tarefas impossíveis ou quando faltam informações
  • A taxa de respostas sycophantic caiu de 14.5% para menos de 6%

Melhorias de segurança

  • O treinamento de ‘safe completion’ (conclusão segura) permite fornecer respostas seguras e úteis mesmo para solicitações com potencial de risco
  • Aplicação de um sistema de múltiplas defesas para cenários de alto risco nas áreas de biologia e química

GPT-5 Pro

  • Modelo de raciocínio expandido para tarefas do mais alto nível de dificuldade
  • Em avaliações com especialistas, teve 67.8% de preferência sobre o GPT-5 Thinking e reduziu erros principais em 22%
  • Melhor desempenho em saúde, ciência, matemática e programação

Como usar e acesso

  • O GPT-5 passa a ser o modelo padrão do ChatGPT, substituindo modelos anteriores (GPT-4o, o3 etc.)
  • É possível forçar o modo de raciocínio ao inserir ‘think hard about this’
  • Disponibilização gradual para Plus·Pro·Team·Free, com Enterprise·Edu recebendo uma semana depois
  • Usuários gratuitos mudam para GPT-5 mini ao excederem o limite

Principais pontos do GPT-5 para desenvolvedores

Desempenho e características

  • Desempenho em programação:

    • SWE-bench Verified 74.9% (o3: 69.1%), uso de tokens 22%↓, chamadas de ferramentas 45%↓
    • 88% no Aider polyglot, com redução de 1/3 na taxa de erros ao modificar código
    • 70% de preferência sobre o o3 em geração de código frontend
  • Tarefas de agente:

    • τ 2-bench telecom 96.7%, com melhor estabilidade em chamadas de múltiplas ferramentas e chamadas paralelas
    • Pode emitir mensagens de preâmbulo mostrando de forma visível ao usuário o progresso e o plano
  • Contexto longo:

    • OpenAI-MRCR(2 needle 128k) 95.2%, BrowseComp Long Context(256k) 88.8%
    • Processa contexto de até 400 mil tokens

Novos recursos de API

  • reasoning_effort: ajusta o tempo de raciocínio na faixa de minimal~high
  • verbosity: define o comprimento padrão da resposta na faixa de low~high
  • Ferramentas customizadas: chamadas em plaintext em vez de JSON, com suporte a restrições por regex/gramática
  • Ferramentas nativas integradas, como chamadas paralelas de ferramentas, busca na web, busca de arquivos e geração de imagens
  • Suporte a recursos de redução de custo como prompt caching e Batch API

Estabilidade e confiabilidade

  • Nos benchmarks LongFact e FactScore, a taxa de alucinação foi reduzida em ~80% em comparação com o o3
  • Melhor reconhecimento das próprias limitações e capacidade reforçada de lidar com situações inesperadas
  • Adequado para tarefas de alto risco e que exigem precisão (código, dados e tomada de decisão)

Availability & pricing

Tamanhos disponíveis e endpoints

  • Versões disponíveis: gpt-5, gpt-5-mini, gpt-5-nano
  • Interfaces compatíveis: Responses API, Chat Completions API e Codex CLI como padrão
  • Característica dos modelos: a família GPT‑5 na API é composta por modelos de reasoning, enquanto o modelo non‑reasoning do ChatGPT é oferecido com um ID separado

Tabela de preços e unidade de cobrança

  • gpt-5: entrada $1.25/milhão de tokens, saída $10/milhão de tokens
  • gpt-5-mini: entrada $0.25/milhão, saída $2/milhão
  • gpt-5-nano: entrada $0.05/milhão, saída $0.40/milhão
  • gpt-5-chat-latest (sem raciocínio): entrada $1.25/milhão, saída $10/milhão, igual ao gpt-5

Resumo dos recursos suportados

  • Controle de raciocínio: em reasoning_effort, é possível definir minimal·low·medium·high para ajustar o trade-off entre velocidade↔precisão
  • Comprimento da resposta: verbosity define a tendência padrão para respostas curtas/padrão/longas
  • Tooling: custom tools permitem chamadas com argumentos em plaintext e aplicação de restrições regex/CFG
  • Recursos de execução: suporte a chamadas paralelas de ferramentas, ferramentas nativas (web search, file search, image generation etc.), streaming e Structured Outputs
  • Otimização de custo: prompt caching e Batch API reduzem custos de tokens e latência
  • Canais de implantação: o GPT‑5 será aplicado em Microsoft 365 Copilot, Copilot, GitHub Copilot e Azure AI Foundry

Exemplo simples de custo

  • Ao processar 50k tokens de entrada + 5k de saída com gpt-5, o custo total é de ≈ $0.1125
    • Cálculo: entrada 0.05M × $1.25 = $0.0625, saída 0.005M × $10 = $0.05, total $0.1125
  • Ao processar a mesma tarefa com gpt-5-mini, o custo total é de ≈ $0.0175
    • Entrada 0.05M × $0.25 = $0.0125, saída 0.005M × $2 = $0.01, o total correto é $0.0225, mas, considerando o preço da saída, a diferença cresce ainda mais em cargas de trabalho com maior peso na entrada
  • Pipelines com grande volume de saída gerativa tendem a se beneficiar mais de modelos com menor custo de saída

Nota de guia para escolha

  • Se a precisão é a prioridade máxima e for necessário um encadeamento complexo de ferramentas, vale considerar gpt-5 para agentes de backend
  • Para edição cotidiana de código, agentes leves e processamento em lote em grande volume, o gpt-5-mini oferece melhor equilíbrio entre custo e qualidade
  • Para pré-processamento, checagem de regras e resumos simples com latência ultrabaixa e custo ultrabaixo, o gpt-5-nano é adequado

Referência

  • Se quiser usar na API o modelo padrão non‑reasoning do ChatGPT, escolha gpt-5-chat-latest
  • Como instruções explícitas têm prioridade sobre o comprimento padrão, mesmo com verbosity, se você pedir algo específico como “ensaio de 5 parágrafos”, o modelo seguirá a instrução

5 comentários

 
shakespeares 2025-08-08

Pessoalmente, acho que o claude-code é melhor para refatoração.
Quando pedi ao Cursor + GPT5 para fazer trabalhos de refatoração, como remover métodos desnecessários, tive a impressão de que o GPT5 não conseguia entender o projeto como um todo, enquanto o claude-code encontrava bem o que precisava e removia corretamente.

 
cgl00 2025-08-08

Dá para sentir que a usabilidade melhorou muito, mas a reação de que ele teria chegado perto daquela AGI que tanto alardearam foi, como era de se esperar, exagerada.

 
laeyoung 2025-08-08

Considerando apenas a parte de programação (SWE-bench), ficou em 74,9% (thinking) e 52,8% (without thinking), enquanto o Claude teve 74,5% (Opus 4.1), 72,5% (Opus 4.0) e 62,3% (Sonnet 3.7).

Sem usar o modo Thinking, ele fica pior que o Sonnet, e mesmo usando fica só um pouquinho melhor que o Opus 4.1.

 
xguru 2025-08-08

Vídeo oficial de anúncio da OpenAI (1 hora e 17 minutos) https://www.youtube.com/watch?v=0Uu_VJeVVfo

 
GN⁺ 2025-08-08
Comentários do Hacker News
  • É interessante que muita gente dizia que, se uma das empresas de IA ultrapassasse o limiar de AGI (inteligência artificial geral), ela dispararia sozinha na frente, mas na prática o desempenho de todos os modelos está ficando cada vez mais parecido; hoje GPT-5, Claude Opus, Grok 4 e Gemini 2.5 Pro mostram bom desempenho geral, e, do ponto de vista do usuário, a competição parece mais acirrada do que nunca. Fico curioso para saber a opinião dos pesquisadores sobre se os serviços das empresas de IA vão ficar ainda mais parecidos ou se vão se diferenciar.

    • Vale notar que, acima de certo limiar, pode ficar difícil para o usuário distinguir qual modelo é melhor. Por exemplo, assim como um jogador de xadrez com ELO 1000 provavelmente não conseguiria diferenciar com facilidade Magnus Carlsen de outro grande mestre ao jogar contra ambos, esse efeito de agrupamento segundo critérios humanos pode, na prática, ser uma ilusão.

    • A razão pela qual a AGI criaria uma singularidade é que ela poderia aprender sozinha. Ainda estamos muito longe de chegar lá, e pessoalmente acho que a chance de eu ver AGI em vida é quase nula. Vejo a distância entre os mainframes dos anos 1970 e os LLMs como parecida com a distância atual até a AGI.

    • Pode ser simplesmente impossível simular um nível mais alto de inteligência com modelos probabilísticos de previsão de texto. Meus amigos pesquisadores de IA também não se preocupam com AGI baseada em LLM, por causa dos limites de aumento de desempenho em relação aos dados (retornos decrescentes). A inteligência humana consegue generalizar muito bem com poucos exemplos, enquanto os LLMs em geral reproduzem respostas que apareceram com frequência nos dados de treino. Ainda assim, mesmo sem AGI, a tecnologia atual de AI/ML/SL pode chegar a um ponto de transformar o mundo, especialmente em áreas como busca, nas quais a reprodução ampla de conhecimento é importante.

    • Antes eu era pessimista em relação à IA, mas agora felizmente estou uns 70% inclinado a achar que o paradigma tecnológico atual não vai levar ao fim da IA no curto prazo. O fato de a IA de hoje ser especializada em “nos imitar” e não conseguir ultrapassar a produção humana média é, por enquanto, quase uma bênção. Ainda assim, em princípio, acho que os argumentos dos “AI doomers” têm seu mérito e que a ameaça deve ser levada a sério.

    • Não consigo concordar com a ideia de que criar uma enciclopédia mais complexa e uma interface de busca interessante com aparência humana nos aproximaria da AGI. Ninguém tem evidência nem entende de onde viria justamente a parte da inteligência geral (GI). Isso parece só exagero sem base sólida e bravata para captar investimento, e considero charlatões aqueles que divulgam AGI como algo factível. É realmente surpreendente ver tantos engenheiros do setor comprando completamente essa lógica, e isso me faz questionar a saúde da indústria.

  • Corte de conhecimento do GPT-5: 30 de setembro de 2024 (cerca de 10 meses antes do lançamento); Gemini 2.5 Pro: janeiro de 2025 (3 meses antes); Claude Opus 4.1: março de 2025 (4 meses antes). Links relacionados: comparação de modelos da OpenAI, DeepMind Gemini Pro, visão geral dos modelos Claude da Anthropic

    • Agora que a busca na web é possível, fico em dúvida se o corte de conhecimento ainda tem tanta importância. Talvez seja mais um indicador de quanto tempo o pós-treinamento levou.

    • O Gemini tenta preencher a lacuna de informações posteriores ao corte de conhecimento com buscas simples na web em quase toda consulta.

    • GPT-5 nano e mini têm um corte ainda mais antigo: 30 de maio de 2024.

    • Como o modelo pode fazer busca na web, acho que o corte de conhecimento em si não importa tanto.

    • Talvez isso signifique, na verdade, que a OpenAI não permite nenhum atalho em questões de segurança.

  • Segundo o System Card do GPT-5, o GPT-5 é um sistema integrado que combina vários modelos (para respostas rápidas, para raciocínio profundo etc.) com um roteador. Durante a conversa, prompts como “pense seriamente sobre isso” fazem o roteador escolher o modelo. Por fora parece um único sistema, mas, na prática, a estrutura combina vários submodelos. Parece que adotaram esse caminho porque treinar um único modelo gigantesco de ponta a ponta ficou caro demais.

    • Pode ser uma diferença semântica, mas se os componentes operam automaticamente e o usuário usa só uma interface, dá para chamar isso de “sistema integrado”. Claro, não é um “modelo integrado”.

    • Isso reforça mais uma vez uma teoria correspondente à 'bitter lesson': dentro de certo orçamento, sistemas especializados projetados manualmente têm desempenho muito superior a um grande sistema generalista.

    • Segundo o texto GPT-5 para desenvolvedores, no ChatGPT o GPT-5 é um sistema que combina vários modelos (de raciocínio, não raciocínio, roteador etc.). Já o GPT-5 da API fornece isoladamente apenas o modelo de raciocínio de desempenho máximo. Alguns modelos sem raciocínio do ChatGPT são oferecidos como gpt-5-chat-latest, com ajuste voltado a desenvolvedores.

    • Se a direção certa for a combinação de muitos modelos pequenos e especializados, então essa estratégia é desejável.

    • Talvez não seja uma questão de custo, mas de esgotamento dos dados de treinamento disponíveis, o que dificulta um aprendizado eficaz, ou então de os novos dados estarem contaminados por conteúdo gerado por IA e por isso não servirem.

  • Houve também erros grandes de benchmark, e as demos não foram tão impressionantes quanto se esperava, o que mudou bastante até o mercado de apostas sobre qual será a melhor IA no fim do ano. Estou mais curioso por Gemini 3.0 ou por um novo modelo do Google, e acho que, na corrida dos LLMs, quem aparece por último pode acabar levando vantagem.

    • Tentei no GPT-5 tarefas que falhavam diretamente no Opus 4.1, e ele não só conseguiu como também corrigiu erros que o Opus havia cometido. Dá para sentir que é coisa séria.

    • Não quero viver num mundo em que uma empresa monopolista que já vale trilhões de dólares possua tudo.

  • Nos testes reais, parece ser um modelo excelente. Ao responder perguntas, chamou atenção como ele tenta usar ferramentas de forma muito mais agressiva do que o 4.1 ou o o3; por exemplo, na primeira resposta ele fez nada menos que 6 chamadas de ferramenta para buscar informação. Exemplo: exemplo de uso de ferramentas

  • O raciocínio mostrado no marketing e na livestream é meio autorreferente, num nível de “é melhor porque é melhor”. Ainda falta uma explicação clara de por que o GPT-5 precisava de uma grande atualização de versão. Como sempre, o clima do resultado em si (vibe check) é que vai determinar a confiança no modelo.

    • Nos últimos 6 meses, bibliotecas JS populares passaram a estar incluídas no conjunto de treinamento mais recente, e por isso agora dizem que ele “ficou melhor para programar”, mas fico preocupado se esse método é sustentável.

    • Tem muita divulgação, mas faltam dados e benchmarks reais, então estou esperando ao menos impressões curtas de usuários práticos como simonw.

    • Tentei levar LLMs ao limite com coisas como refatoração de código de alta dificuldade, mas foi difícil sentir uma melhora fundamental de qualidade em relação aos modelos anteriores. Neste momento, parece que a melhora de qualidade chegou a um limite, entrando numa fase de desaceleração da curva S. Entregar a mesma qualidade por menos dinheiro é relevante, mas, no uso cotidiano, a mudança de qualidade não é perceptível.

    • A página de lançamento do GPT-5 inclui vários resultados de benchmark (AIME 2025, SWE-bench etc.), mas nada particularmente revolucionário.

    • Parece que entramos na era do “quero o smartphone mais novo só porque é o mais novo”.

  • Pela livestream, a melhora de benchmark em relação ao modelo anterior é muito pequena. Dá para entender por que tentaram reduzir as expectativas antes do lançamento, mas, na prática, a melhora foi muito menor do que eu esperava.

    • Antes do lançamento, Sam Altman aumentou as expectativas ao tuitar uma imagem da Estrela da Morte.

    • As big techs de IA estão competindo em áreas muito parecidas sem conseguir se diferenciar, e a OpenAI agora parece tender a focar mais em otimização de custos e em assistentes para uso cotidiano/empresarial do que em inteligência superavançada. Já Anthropic e Google têm mais folga de crescimento para investir em inteligência mais alta e, no fim, talvez saiam modelos mais inteligentes, como na série o, mas receita e realidade de mercado continuam sendo o limite.

    • O GPT-5 está em 1º lugar no WebDev Arena, com 75 pontos à frente do Gemini 2.5 Pro e 100 pontos à frente do Claude Opus 4. Confira: leaderboard do lmarena.ai

    • As demos de código foram feitas quase todas com o GPT-5 MAX baseado no Cursor, e a maioria dos usuários não vai conseguir usar esse modo MAX com frequência. Teria sido bom mostrar também a versão comum.

    • Isso me faz lembrar de quando o Sam disse, 2 anos atrás, que preferia um progresso gradual em vez de anúncios pontuais e chocantes. Ainda é só o primeiro dia, então pode haver espaço para mais 10–20% de otimização nos próximos meses.

  • Estou confuso sobre o que é o eixo y deste material de apresentação: controvérsia sobre o gráfico

    • O primeiro gráfico já parece fraco dentro da apresentação inteira, com cara de algo muito improvisado. Também teria sido bom comparar com o Opus 4.1. Para referência, a pontuação do Opus 4.1 é 74,5%: notícia sobre o Anthropic Opus 4.1. Isso mostra que, mesmo após a atualização, a Anthropic ainda lidera nesse indicador.
  • No exemplo de demo do ChatGPT5, foi mostrada uma explicação errada de como funciona a asa de um avião (aerofólio): dizia que o ar de cima precisa percorrer uma distância maior, então se move mais rápido e gera pressão menor, enquanto embaixo ele é mais lento e tem pressão maior, gerando sustentação. Mas, na verdade, não há base física para dizer que o ar de cima e o de baixo precisam chegar ao mesmo tempo. Artigo relacionado: Universidade de Cambridge, Reino Unido. Foi estranho usarem uma explicação errada logo na primeira demo.

    • É uma explicação completamente errada. Se isso estivesse certo, um aerofólio de placa plana não deveria gerar sustentação, mas a realidade é outra. Digo isso com experiência direta de doutorado em projeto aeronáutico.

    • É a famosíssima confusão do equal transit time fallacy, então mesmo quem não é especialista em engenharia aeronáutica já ouviu falar desse erro.

    • Acho estranho o uso da expressão “nível de PhD”. Um doutor de verdade deveria criar ciência nova, indo além da informação existente, e até hoje nunca vi um LLM produzir ciência nova por conta própria. No fundo, LLM é só um excelente parser de palavras.

    • A NASA também mantém uma página explicando essa descrição incorreta.

    • O Bartosz é quem explica melhor esse assunto: explicação desta área

  • A janela de contexto do GPT-5 é de 400 mil, saída máxima de 128 mil tokens, $1.25 de entrada e $10.00 de saída. Documentação oficial Se, com esse desempenho, ele realmente for muito bem avaliado no problema de needle-in-haystack, será extremamente competitivo em relação ao Gemini 2.5 Pro e ao Claude Opus 4.1; e, se as versões mini/nano também entregarem bem, isso pode ser um salto enorme.

    • gpt-5 tem corte em 1º de outubro de 2024, enquanto mini/nano ficam em 31 de maio de 2024. A linha anterior 4.1 suportava 1M/32k tokens; a estrutura de preço ficou com tokens de entrada 37% mais baratos e tokens de saída 25% mais caros. Só a linha nano tem entrada 50% mais barata e preço de saída igual.

    • Para usar a API, também é preciso considerar o custo de verificação de identidade (tempo, processo etc.).