3 pontos por GN⁺ 2025-08-08 | 1 comentários | Compartilhar no WhatsApp
  • O GPT-5 funciona como um sistema unificado em que um roteador em tempo real altera o modelo conforme o contexto da conversa, e a API oferece Regular·Mini·Nano em 3 variantes com 4 níveis de raciocínio (Minimal·Low·Medium·High)
  • Suporta limite de 272.000 tokens de entrada e 128.000 tokens de saída; a entrada aceita texto·imagem e a saída é apenas texto
  • O preço é agressivo: o custo de entrada é metade do GPT-4o, e há desconto de 90% em cache de tokens para entradas reaproveitadas em poucos minutos
  • Na system card, com foco em redução de alucinações, melhoria no cumprimento de instruções e redução de bajulação, o treinamento em Safe‑Completions busca respostas em uma faixa segura em vez de rejeições binárias
  • Em segurança, houve melhora contra prompt injection, mas com taxa de sucesso de 56,8% com k=10 ainda resta área não resolvida; na API é possível controlar o fluxo de tokens de raciocínio com o resumo de reasoning e a opção reasoning_effort=minimal

GPT-5 : principais características, preços e análise da system card

  • O autor Simon Willison, com acesso de prévia por 2 semanas, usou o GPT‑5 no dia a dia e percebeu que, apesar de não ter sido um salto dramático, ele é amplamente competente, com baixa frequência de erros e um bom modelo padrão consistência.
  • Este texto é o primeiro capítulo da série, reunindo o que pode ser extraído sobre características centrais, preço e a system card

Principais características do modelo

  • No ambiente do ChatGPT, o GPT‑5 combina um modelo geral rápido e um modelo de raciocínio profundo e funciona como uma arquitetura híbrida na qual o roteador em tempo real escolhe o modelo certo conforme o tipo de conversa, dificuldade, necessidade de ferramentas e sinais explícitos de intenção

    “A real‑time router escolhe o modelo conforme o tipo de conversa, complexidade, necessidade de ferramentas e sinais de intenção como 'think hard'; quando o limite de uso é esgotado, a versão mini de cada modelo o substitui”, conforme consta na system card

  • Na API, a oferta é simplificada para Regular·Mini·Nano em 3 tipos, e cada um deles suporta 4 níveis de raciocínio: Minimal·Low·Medium·High
  • O limite de contexto é 272.000 tokens de entrada e 128.000 tokens de saída, e os tokens de raciocínio invisíveis também são computados como tokens de saída
  • A entrada e saída são texto·imagem na entrada e somente texto na saída, com corte de conhecimento em GPT‑5: 2024‑09‑30 e Mini/Nano: 2024‑05‑30
  • No uso geral do GPT‑5 senti respostas mais precisas e serenas, e quase não houve necessidade de tentar com outro modelo

Posição na família de modelos da OpenAI

  • Pelo mapa de correspondência da system card, o lineup anterior é posicionado como substituído pela linha GPT‑5
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • O thinking‑pro hoje é mostrado no ChatGPT como “GPT‑5 Pro” e é oferecido apenas no nível de US$ 200/mês, usando parallel test‑time compute
  • A fronteira de funcionalidades se mantém: áudio de entrada/saída e geração de imagem continuam sob responsabilidade do GPT‑4o Audio/Realtime e do GPT Image 1/DALL‑E

O preço é agressivamente competitivo

  • O preço é definido de forma agressiva
    • GPT‑5: entrada US$ 1,25 por milhão, saída US$ 10 por milhão
    • GPT‑5 Mini: entrada US$ 0,25 por milhão, saída US$ 2,00 por milhão
    • GPT‑5 Nano: entrada US$ 0,05 por milhão, saída US$ 0,40 por milhão
  • O custo de entrada é metade do GPT‑4o e o custo de saída é igual
  • Os tokens de raciocínio são cobrados como tokens de saída, então o custo total varia conforme o nível de raciocínio, mesmo com o mesmo prompt
  • O desconto de 90% com cache de tokens gera grande economia em chat UIs onde há repetição frequente de reenvio de contexto de conversa
  • Em uma tabela comparativa com concorrentes, Claude Opus 4.1, Claude Sonnet 4, Grok 4 e Gemini 2.5 Pro aparecem em US$ 2,5~US$ 15 por milhão na entrada e US$ 10~US$ 75 por milhão na saída, mostrando vantagem de preço da família GPT‑5
  • Houve um caso em que, ao deixar o ordenamento automático da tabela para o GPT‑5, a comparação de preços foi parcialmente mal classificada; ao reconstruir a tabela em Python e ordená-la, o problema foi resolvido

Mais notas da system card

  • A composição dos dados de treino inclui web pública, dados parceiros, e dados gerados por usuários e treinadores humanos, com uma descrição de alto nível de que foi aplicado filtro de redução de dados pessoais
  • Como eixos centrais de melhoria, destacam-se redução de alucinações, melhoria no cumprimento de instruções e redução de bajulação, com ênfase em writing·coding·health como os 3 usos mais comuns no ChatGPT, reforçando desempenho nessas áreas
  • Safe‑Completions é um treinamento centrado na saída que prioriza segurança da saída em vez de recusa binária, e reduz riscos em consultas de uso duplo difíceis de inferir intenção, como biologia·segurança, preservando utilidade
  • Sobre Sycophancy, foi aplicado pós-treinamento com avaliação e sinais de recompensa baseados na distribuição de conversa de produção para reduzir comportamento de concordância servil
  • Em termos de factualidade, junto com o navegamento ativado por padrão, o treinamento visou reduzir alucinações quando respondendo apenas com conhecimento interno sem ferramentas
  • Para prevenir enganação e respostas falsas, houve desenho de recompensas para reconhecer honestamente 'impossível' em tarefas inviáveis, além de uma avaliação por simulação em que ferramentas como navegação foram propositalmente desativadas para suprimir respostas ilusórias

Prompt injection na system card

  • O resultado inclui a avaliação de prompt injection feita por 2 equipes externas de red team, focadas em vulnerabilidades de nível de sistema e caminho de conectores
  • No gráfico comparativo, a taxa de sucesso de ataque do gpt‑5‑thinking em k=10 foi de 56,8%, abaixo da faixa de 60~90% de Claude 3.7 e vários outros modelos, mas ainda com penetração acima da metade, portanto longe da resolução completa
  • Conclui-se que, apesar das melhorias do modelo, ainda é recomendável tratar a proteção e guardrails como premissa obrigatória por desenho de produto

Trilhas de raciocínio na API

  • O autor inicialmente sabia que não era possível expor pistas de raciocínio, mas descobriu que no Responses API é possível receber um resumo de raciocínio via reasoning: { "summary": "auto" }
  • Sem essa opção, em níveis de raciocínio profundo uma quantidade considerável de tokens de raciocínio é consumida antes da saída visível, o que pode gerar atraso percebido; com reasoning_effort=minimal é possível induzir respostas em streaming mais rápidas

E alguns SVGs de pelicanos

  • No benchmark constante em SVG do autor, “pelicano pedalando bicicleta”, com GPT‑5 (raciocínio padrão Medium) o resultado mostrou melhor definição de detalhes e da forma da bicicleta, gerando vetores de boa legibilidade
  • O GPT‑5 Mini oferece gradientes e cor ricos, mas apresenta erro estrutural com duas pescos do pelicano
  • O GPT‑5 Nano simplifica as formas de bicicleta e pelicano, gerando uma saída em nível de resumo funcional

Pontos práticos

  • Escolha de modelo: comece com Regular e faça downgrade para Mini/Nano se suficiente; para problemas complexos, considere a linha thinking com nível de raciocínio mais alto
  • Controle de custo: estratégias eficazes incluem cache de tokens de 90%, reasoning_effort=minimal, prompts do sistema curtos e contexto resumido para reduzir tokens de saída e tokens de raciocínio
  • Segurança em projeto: como prompt injection ainda é um risco, combine redução de privilégios dos conectores, validação de saída e templates de resposta segura como defesa sistêmica
  • Aplicação por domínio: com base em relatos de redução de alucinações e bajulação em writing·coding·health, recomenda-se adotar o fluxo padrão de navegação + inclusão de evidências para tarefas de documentação corporativa, revisão de código e QA em healthcare de alto risco

1 comentários

 
GN⁺ 2025-08-08
Comentário do Hacker News
  • Fico feliz em achar que é realmente impressionante e que parece mais confiável, mas, quando comparo com a imagem de GPT-5 que as pessoas esperavam há dois anos, fico um pouco desapontado por ter ficado apenas em melhorias graduais e estáveis, sem uma inovação que mudasse o jogo. Sinto também que a abordagem de simplesmente escalar parece ter esbarrado em um limite.
  • Se fosse possível evoluir só injetando mais recursos de computação, imagino que a OpenAI não teria gasto tempo ajustando gradualmente seu sistema de roteamento de usuários para melhorar as interações médias.
  • Eu também era cético em relação à alegação de que, aumentando apenas dados e computação, seria possível chegar à AGI.
  • De modo geral, o aumento de opacidade no setor e a sensação de que, no anúncio, sobrou mais linguagem de marketing do que informação real fazem parecer um grande problema: a sensação de que ninguém sabe em que estado o modelo está. Em investimentos em larga escala, isso pode ser inevitável.
  • Ainda não dá para descartar completamente a possibilidade de surgir um modelo extraordinário no futuro.
    • Penso que a inovação realmente silenciosa está acontecendo no uso de ferramentas e na capacidade multimodal. A inteligência geral está mudando gradualmente, mas o uso de ferramentas em múltiplas etapas e a interação com o mundo real melhoraram dramaticamente em comparação com um ano atrás. Espero que esse tipo de feedback acabe se traduzindo em uma inteligência ainda melhor.
    • Há um movimento de que expandir escala não é a resposta definitiva, e fico curioso se os investidores começarão a financiar quem defendia essa direção com evidências. Não entendo por que insistir apenas em uma direção (de LLM para AGI). Num mercado já saturado de grandes players, não vejo necessidade de investir em mais uma startup de LLM. Mesmo que um LLM chegue à AGI algum dia, certamente pode surgir uma forma mais rápida e barata de fazer isso. Ir sem plano B também é arriscado. Penso que a curva em S da tecnologia se aplica também à IA. Eu e amigos com formação matemática/científica, mais acostumados com argumentos quantitativos, também duvido que escalar seja a única resposta.
    • Parece que agora foi comprovado que o LLM pode aprender vários tipos de informação e ser usado em diferentes tarefas. Mas para ser realmente útil, é sempre necessário esforço adicional para pensar em como aplicar em cada problema. Se fosse possível perguntar ao GPT “Como montar uma startup de US$ 1 bilhão com US$ 1.000 em até 1 ano” e receber a resposta, alguém já teria feito isso. Por enquanto, no fim das contas, ainda será o ser humano que vai suar. Por enquanto, faz sentido, pragmaticamente, focar em reduzir erros comuns.
    • Vejo que o desempenho dobra a cada 4 a 7 meses, e essa tendência continua. Essa velocidade já me parece absurda por si só. Esperar além disso seria, a meu ver, cair mais em propaganda enganosa. Não vejo esse cenário de 2 a 3 dobragens anuais como estagnação. link relacionado
    • Na verdade, embora seja uma atualização gradual (na perspectiva de desempenho), a direção de salto em termos de simplificação de produto já era uma das rotas de GPT-5 discutidas há seis meses. Fica a sensação de que o desenvolvimento da IA, daqui para frente, será uma disputa de melhorias pequenas e finas.
  • Pessoalmente, fico confuso com a OpenAI dizendo que reduziu significativamente as alucinações. Pela minha experiência, Claude 4 (Sonnet, Opus) também apresenta alucinação quase diária até em perguntas muito simples ou difíceis. Isso acontece até em partes muito triviais.
    • Também vi várias alucinações na demonstração do anúncio (usando Claude e GPT, tanto na versão paga quanto na gratuita, isso acontece sempre). Se você não viu, eu diria que isso é mentira ou incompetência.
    • O problema fundamental do LLM é que, ao aprender preferências humanas, ele acaba se otimizando para erros furtivos (stealthy errors). Eu sou muito cauteloso com o uso de ferramentas que geram falhas furtivas, mesmo com baixa taxa de falha.
    • Esse tipo de modelo atrasa todas as tarefas e torna a depuração muito difícil.
    • É parecido com um bug de indentação em Python: parece tudo normal por fora, mas há erro escondido.
    • Mas esse tipo de bug de código pode ser identificado direto pela mensagem de erro, enquanto o erro furtivo do LLM não mostra isso, e esse é o problema. Isso parece acabar incentivando uma cultura de “LGTM (Looks Good To Me)”.
    • Só com “Você está errado”, Claude ou ChatGPT entram em colapso imediatamente e repetem alucinação; além de errar ou acertar, eles não conseguem sustentar o argumento com confiança.
    • Acho que Simon, por usar LLM por tanto tempo, desenvolveu intuição para enquadrar perguntas de forma que gerem menos alucinação.
    • Penso que depende da entrada. O Claude 4 que usei fazia alucinação muito frequentemente, e ao gerar JSON, frequentemente gerava resultados com muitos erros sintáticos com muita confiança.
  • “Você é GPT5?” “Não, sou 4o, o 5 ainda não saiu.” “Disseram que saiu hoje.” “Ah, é mesmo, sou GPT5.” <i>Limite gratuito de uso do 4o foi atingido</i>. Vivenciei essa confusão em que realidade e informação do modelo se misturam.
  • A política de preços agressiva da OpenAI me pareceu um tanto quanto surpreendente. Se não houvesse realmente competição, não precisaria usar esses números. Penso que isso significa que a competição ficou intensa.
    • No mercado de apps, vence de forma esmagadora, mas na API está, na prática, perdendo para a Anthropic. notícia relacionada
    • Pode ser o impacto de ter perdido clientes PRO recentemente (eu incluído). Eu acho que o PRO não tinha 10 vezes o valor de preço do PLUS. Com o aparecimento de novos concorrentes como z.ai, está ficando difícil diferenciar o serviço.
    • Sinto que essa diferença é, na prática, de cerca de 5%. Parece uma escolha inevitável para não perder para a competição de preço com o Gemini 2.5 Pro. Também acho que a mudança de padrão no Cursor reflete isso.
    • O modelo Nano de US$ 0,05 é uma mudança bastante interessante. Dessa forma, o Google pode acabar reduzindo preços novamente depois de ter aumentado devagar recentemente.
    • Também imagino que essa política pode ter sido lançada simplesmente por necessidade de mais dados.
  • Na API, com GPT-5 composto por regular, mini e nano, e cada um selecionável em 4 níveis de reasoning (minimal, low, medium, high), fico com a impressão de que ficou até mais complexo do que o GPT 4.1, que tinha só 3 opções (regular, mini, nano). Como apenas um modelo mini já tem 4 níveis do minimal ao high, isso dá 8 opções no total; na prática, vira o dilema recorrente de se é melhor ajustar prompt ou trocar versão/nível de reasoning.
    • Na prática, já havia várias opções adicionais por nível de reasoning, como o3-mini-high, o3-mini-medium, o3-mini-low, o4-mini-high, o4-mini-medium e o4-mini-low. Parece até que o formato do GPT-5 é mais simples.
    • Como é n=1,2,3 e nível de reasoning m=0,1,2,3, acho que é estrutural. Dá para intuir qual combinação sobe para um nível mais alto.
    • Quando digo que é “mais simples”, interpreto que antes existia um harness em que modelos chat-optimized de chat ou API mudavam nível de reasoning e modelo via heurísticas; agora, na API, o usuário ganha um modelo mental claro para escolher diretamente o tipo de modelo e o esforço de reasoning. São muitas escolhas, mas a forma de escolher ficou mais clara.
    • No fim, como a OpenAI cobra por token, acaba inevitavelmente testando muitas versões.
  • Fiquei curioso sobre por que os parâmetros (temperature, top-p) de ajuste manual sumiram dos modelos de reasoning (incluindo GPT-5). Em tarefas pequenas, consistência é importante, e sem esse recurso o atendimento fica difícil. No API, controlar isso com precisão parece extremamente importante para o usuário.
    • Configurações de sampler impactam negativamente segurança e alinhamento. Por isso permitem só top_p/top_k e deixam de fora tfs, min_p, top_n sigma, etc. O mesmo vale para limitar a temperature arbitrariamente entre 0 e 2. Acho que o open source está até mais adiantado em sampler. Mesmo assim, extrair desempenho desse modelo assim é onde fica evidente por que a tecnologia da OpenAI é tão surpreendente.
  • Mesmo sendo uma empresa de valor bilionário, com campos de uso real em contratação, negócios, educação etc., é uma pena avaliar a justiça do modelo com base apenas em um benchmark artificial como o BBQ.
  • O SVG de um pelicano andando de bicicleta continua sendo um problema desafiador para IA, ao mesmo tempo engraçado e interessante.
    • Eu queria perguntar se dava para desenhar um SVG de um pelicano de bicicleta num editor de texto. Na prática, nem isso é fácil para humanos.
  • Ao contrário do anterior, parece ter sido treinado para usar ferramentas para recolher contexto de forma eficaz. Em comparação com 4.1 e o3, trouxe em um único primeiro turno resultados de 6 categorias de uma vez, resolvendo de um jeito bem legal. Aumentam chamadas de ferramenta, mais tokens são usados, mas com a política de preços agressiva de agora isso não deve ser um grande problema. Com bom design de prompt, também dá para reduzir a frequência de uso de ferramentas. exemplo relacionado
  • A revisão concisa e meticulosa do Simon ajudou muito a entender os resultados concretamente.
  • Sobre a opinião de que Claude e o3 também têm bem menos alucinação nos modelos deste ano, o autor acrescentou na parte do post sua intenção de forma clara para complementar a explicação.