3 pontos por GN⁺ 2025-08-08 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O GPT-5 funciona como um sistema unificado em que um roteador em tempo real altera o modelo conforme o contexto da conversa, e a API oferece Regular·Mini·Nano em 3 variantes com 4 níveis de raciocínio (Minimal·Low·Medium·High)
  • Suporta limite de 272.000 tokens de entrada e 128.000 tokens de saída; a entrada aceita texto·imagem e a saída é apenas texto
  • O preço é agressivo: o custo de entrada é metade do GPT-4o, e há desconto de 90% em cache de tokens para entradas reaproveitadas em poucos minutos
  • Na system card, com foco em redução de alucinações, melhoria no cumprimento de instruções e redução de bajulação, o treinamento em Safe‑Completions busca respostas em uma faixa segura em vez de rejeições binárias
  • Em segurança, houve melhora contra prompt injection, mas com taxa de sucesso de 56,8% com k=10 ainda resta área não resolvida; na API é possível controlar o fluxo de tokens de raciocínio com o resumo de reasoning e a opção reasoning_effort=minimal

GPT-5 : principais características, preços e análise da system card

  • O autor Simon Willison, com acesso de prévia por 2 semanas, usou o GPT‑5 no dia a dia e percebeu que, apesar de não ter sido um salto dramático, ele é amplamente competente, com baixa frequência de erros e um bom modelo padrão consistência.
  • Este texto é o primeiro capítulo da série, reunindo o que pode ser extraído sobre características centrais, preço e a system card

Principais características do modelo

  • No ambiente do ChatGPT, o GPT‑5 combina um modelo geral rápido e um modelo de raciocínio profundo e funciona como uma arquitetura híbrida na qual o roteador em tempo real escolhe o modelo certo conforme o tipo de conversa, dificuldade, necessidade de ferramentas e sinais explícitos de intenção

    “A real‑time router escolhe o modelo conforme o tipo de conversa, complexidade, necessidade de ferramentas e sinais de intenção como 'think hard'; quando o limite de uso é esgotado, a versão mini de cada modelo o substitui”, conforme consta na system card

  • Na API, a oferta é simplificada para Regular·Mini·Nano em 3 tipos, e cada um deles suporta 4 níveis de raciocínio: Minimal·Low·Medium·High
  • O limite de contexto é 272.000 tokens de entrada e 128.000 tokens de saída, e os tokens de raciocínio invisíveis também são computados como tokens de saída
  • A entrada e saída são texto·imagem na entrada e somente texto na saída, com corte de conhecimento em GPT‑5: 2024‑09‑30 e Mini/Nano: 2024‑05‑30
  • No uso geral do GPT‑5 senti respostas mais precisas e serenas, e quase não houve necessidade de tentar com outro modelo

Posição na família de modelos da OpenAI

  • Pelo mapa de correspondência da system card, o lineup anterior é posicionado como substituído pela linha GPT‑5
    • GPT‑4o → gpt‑5‑main, GPT‑4o‑mini → gpt‑5‑main‑mini
    • OpenAI o3 → gpt‑5‑thinking, o4‑mini → gpt‑5‑thinking‑mini
    • GPT‑4.1‑nano → gpt‑5‑thinking‑nano, o3 Pro → gpt‑5‑thinking‑pro
  • O thinking‑pro hoje é mostrado no ChatGPT como “GPT‑5 Pro” e é oferecido apenas no nível de US$ 200/mês, usando parallel test‑time compute
  • A fronteira de funcionalidades se mantém: áudio de entrada/saída e geração de imagem continuam sob responsabilidade do GPT‑4o Audio/Realtime e do GPT Image 1/DALL‑E

O preço é agressivamente competitivo

  • O preço é definido de forma agressiva
    • GPT‑5: entrada US$ 1,25 por milhão, saída US$ 10 por milhão
    • GPT‑5 Mini: entrada US$ 0,25 por milhão, saída US$ 2,00 por milhão
    • GPT‑5 Nano: entrada US$ 0,05 por milhão, saída US$ 0,40 por milhão
  • O custo de entrada é metade do GPT‑4o e o custo de saída é igual
  • Os tokens de raciocínio são cobrados como tokens de saída, então o custo total varia conforme o nível de raciocínio, mesmo com o mesmo prompt
  • O desconto de 90% com cache de tokens gera grande economia em chat UIs onde há repetição frequente de reenvio de contexto de conversa
  • Em uma tabela comparativa com concorrentes, Claude Opus 4.1, Claude Sonnet 4, Grok 4 e Gemini 2.5 Pro aparecem em US$ 2,5~US$ 15 por milhão na entrada e US$ 10~US$ 75 por milhão na saída, mostrando vantagem de preço da família GPT‑5
  • Houve um caso em que, ao deixar o ordenamento automático da tabela para o GPT‑5, a comparação de preços foi parcialmente mal classificada; ao reconstruir a tabela em Python e ordená-la, o problema foi resolvido

Mais notas da system card

  • A composição dos dados de treino inclui web pública, dados parceiros, e dados gerados por usuários e treinadores humanos, com uma descrição de alto nível de que foi aplicado filtro de redução de dados pessoais
  • Como eixos centrais de melhoria, destacam-se redução de alucinações, melhoria no cumprimento de instruções e redução de bajulação, com ênfase em writing·coding·health como os 3 usos mais comuns no ChatGPT, reforçando desempenho nessas áreas
  • Safe‑Completions é um treinamento centrado na saída que prioriza segurança da saída em vez de recusa binária, e reduz riscos em consultas de uso duplo difíceis de inferir intenção, como biologia·segurança, preservando utilidade
  • Sobre Sycophancy, foi aplicado pós-treinamento com avaliação e sinais de recompensa baseados na distribuição de conversa de produção para reduzir comportamento de concordância servil
  • Em termos de factualidade, junto com o navegamento ativado por padrão, o treinamento visou reduzir alucinações quando respondendo apenas com conhecimento interno sem ferramentas
  • Para prevenir enganação e respostas falsas, houve desenho de recompensas para reconhecer honestamente 'impossível' em tarefas inviáveis, além de uma avaliação por simulação em que ferramentas como navegação foram propositalmente desativadas para suprimir respostas ilusórias

Prompt injection na system card

  • O resultado inclui a avaliação de prompt injection feita por 2 equipes externas de red team, focadas em vulnerabilidades de nível de sistema e caminho de conectores
  • No gráfico comparativo, a taxa de sucesso de ataque do gpt‑5‑thinking em k=10 foi de 56,8%, abaixo da faixa de 60~90% de Claude 3.7 e vários outros modelos, mas ainda com penetração acima da metade, portanto longe da resolução completa
  • Conclui-se que, apesar das melhorias do modelo, ainda é recomendável tratar a proteção e guardrails como premissa obrigatória por desenho de produto

Trilhas de raciocínio na API

  • O autor inicialmente sabia que não era possível expor pistas de raciocínio, mas descobriu que no Responses API é possível receber um resumo de raciocínio via reasoning: { "summary": "auto" }
  • Sem essa opção, em níveis de raciocínio profundo uma quantidade considerável de tokens de raciocínio é consumida antes da saída visível, o que pode gerar atraso percebido; com reasoning_effort=minimal é possível induzir respostas em streaming mais rápidas

E alguns SVGs de pelicanos

  • No benchmark constante em SVG do autor, “pelicano pedalando bicicleta”, com GPT‑5 (raciocínio padrão Medium) o resultado mostrou melhor definição de detalhes e da forma da bicicleta, gerando vetores de boa legibilidade
  • O GPT‑5 Mini oferece gradientes e cor ricos, mas apresenta erro estrutural com duas pescos do pelicano
  • O GPT‑5 Nano simplifica as formas de bicicleta e pelicano, gerando uma saída em nível de resumo funcional

Pontos práticos

  • Escolha de modelo: comece com Regular e faça downgrade para Mini/Nano se suficiente; para problemas complexos, considere a linha thinking com nível de raciocínio mais alto
  • Controle de custo: estratégias eficazes incluem cache de tokens de 90%, reasoning_effort=minimal, prompts do sistema curtos e contexto resumido para reduzir tokens de saída e tokens de raciocínio
  • Segurança em projeto: como prompt injection ainda é um risco, combine redução de privilégios dos conectores, validação de saída e templates de resposta segura como defesa sistêmica
  • Aplicação por domínio: com base em relatos de redução de alucinações e bajulação em writing·coding·health, recomenda-se adotar o fluxo padrão de navegação + inclusão de evidências para tarefas de documentação corporativa, revisão de código e QA em healthcare de alto risco

Ainda não há comentários.

Ainda não há comentários.