11 pontos por GN⁺ 2026-03-06 | 2 comentários | Compartilhar no WhatsApp
  • O mais novo modelo de fronteira aplicado ao ChatGPT, API e Codex, unificando desempenho em raciocínio, codificação e fluxos de trabalho com agentes
  • Inclui recurso nativo de uso do computador (computer-use), permitindo que agentes manipulem diretamente sites e softwares para executar fluxos de trabalho complexos
  • Suporta uma janela de contexto de até 1M tokens e reduz velocidade e custos com busca de ferramentas e uso eficiente de tokens
  • No modo Thinking do ChatGPT, é possível ajustar a linha de raciocínio durante a resposta, com melhorias em pesquisa profunda na web e manutenção de contexto
  • Absorve o desempenho de codificação do GPT-5.3-Codex e melhora bastante a precisão e eficiência em planilhas, apresentações e documentos

Visão geral do GPT‑5.4

  • O GPT‑5.4 é o modelo mais poderoso e eficiente lançado ao mesmo tempo no ChatGPT (modo Thinking), na API e no Codex
    • A versão GPT‑5.4 Pro oferece o máximo desempenho em tarefas complexas
  • Integra as capacidades de codificação do GPT‑5.3‑Codex e reforça a precisão e a eficiência em ambientes profissionais, como planilhas, apresentações e documentos
  • A integração entre ferramentas e ambientes de software foi melhorada, reduzindo as interações de ida e volta durante a execução de trabalho real

Melhorias no modo Thinking do ChatGPT

  • O GPT-5.4 Thinking apresenta um planejamento prévio (preamble) no início da tarefa, permitindo que o usuário ajuste a direção no meio da geração da resposta
  • Foi projetado para que a saída final corresponda com mais precisão à intenção do usuário sem precisar de turnos adicionais
  • Melhoria no desempenho de pesquisa profunda na web, especialmente eficaz em consultas muito específicas
  • Em perguntas que exigem raciocínio prolongado, a capacidade de manter o contexto anterior foi aprimorada, fornecendo respostas de maior qualidade com mais rapidez
  • Disponível imediatamente no chatgpt.com e no app Android; suporte ao app iOS previsto para depois

Uso do computador e capacidades de visão

  • O GPT-5.4 é o primeiro modelo de uso geral a trazer recurso nativo de computer-use
  • Suporta tanto manipulação de computador baseada em código por meio de bibliotecas como Playwright quanto emissão de comandos de mouse e teclado com base em capturas de tela
  • O comportamento pode ser ajustado por mensagens de desenvolvedor, e o confirmation policy personalizado permite configurar individualmente o nível de tolerância a risco
  • Alcançou 75.0% no OSWorld-Verified, superando o desempenho humano de 72.4% e avançando bastante em relação aos 47.3% do GPT-5.2
  • No WebArena-Verified, alcançou 67.3% com interação baseada em DOM + capturas de tela (GPT-5.2: 65.4%)
  • No Online-Mind2Web, atingiu 92.8% apenas com observação baseada em screenshots (ChatGPT Atlas Agent Mode: 70.9%)

Melhorias em percepção visual e parsing de documentos

  • A capacidade geral de percepção visual aprimorada é a base do recurso de uso do computador
  • No MMMU-Pro, sem uso de ferramentas: 81.2% (GPT-5.2: 79.5%); com uso de ferramentas: 82.1% (GPT-5.2: 80.4%)
  • No OmniDocBench, atingiu erro médio (distância de edição normalizada) de 0.109 sem raciocínio (GPT-5.2: 0.140)
  • Introduzido o novo nível de detalhe de entrada de imagem original: suporte a percepção em fidelidade total de até 10.24M pixels ou dimensão máxima de 6000px
    • O nível high foi expandido para até 2.56M pixels ou dimensão máxima de 2048px
    • Testes iniciais de usuários da API confirmaram forte melhora em localização, compreensão de imagens e precisão de clique

Desempenho em codificação

  • Combina os pontos fortes de codificação do GPT-5.3-Codex com capacidades de trabalho profissional e uso do computador
  • Alcançou 57.7% no SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
  • Oferece latência menor que o GPT-5.3-Codex em todos os níveis de raciocínio
  • Com o modo /fast ativado no Codex, entrega velocidade de tokens até 1,5x maior, mantendo o mesmo modelo e o mesmo nível de inteligência
    • Na API, é possível acessar o mesmo desempenho acelerado por meio de Priority Processing
  • Em tarefas complexas de frontend, gera resultados visivelmente mais estéticos e funcionais do que os modelos anteriores
  • Lançado o recurso experimental do Codex "Playwright (Interactive)": suporte a depuração visual de apps web e Electron, com testes em tempo real de apps em desenvolvimento

Recurso Tool Search

  • Antes, todas as definições de ferramentas eram incluídas previamente no prompt e consumiam de milhares a dezenas de milhares de tokens; com o Tool Search, apenas uma lista leve de ferramentas é fornecida, e as definições são buscadas dinamicamente quando necessário
  • Em fluxos de trabalho intensivos em ferramentas, reduz drasticamente o uso de tokens e preserva o cache, melhorando tanto velocidade quanto custo
  • O ganho de eficiência é especialmente grande em definições de ferramentas de servidores MCP com dezenas de milhares de tokens
  • No benchmark MCP Atlas da Scale, com base em 250 tarefas, ao migrar todos os 36 servidores MCP para Tool Search, o uso total de tokens caiu 47%, mantendo a mesma precisão

Chamadas de ferramentas e desempenho de agentes

  • O GPT-5.4 melhora a precisão e a eficiência de quando e como usar ferramentas durante o raciocínio
  • Alcançou 54.6% no Toolathlon (GPT-5.2: 45.7%), com maior precisão em menos turnos
    • Avalia tarefas reais em múltiplas etapas com uso de ferramentas, como ler e-mails, extrair anexos de tarefas, fazer upload, corrigir, e registrar resultados em planilhas
  • Mesmo em cenários de baixa latência sem raciocínio, atingiu 64.3% no τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
  • No BrowseComp, marcou 82.7%, e o GPT-5.4 Pro chegou a 89.3%, estabelecendo um novo melhor resultado (GPT-5.2: 65.8%)
    • Houve melhora na capacidade de buscar de forma persistente ao longo de várias rodadas em tarefas difíceis do tipo “agulha no palheiro”

Desempenho em trabalho profissional e tarefas de conhecimento

  • No GDPval, foram avaliadas entregas reais de trabalho de 44 ocupações em 9 dos maiores setores da economia dos EUA (apresentações de vendas, planilhas contábeis, escalas de pronto atendimento, diagramas de manufatura, vídeos curtos etc.)
    • GPT-5.4: 83.0% de correspondência ou superação do nível de especialistas (GPT-5.2: 70.9%)
  • No benchmark interno de modelagem de planilhas de banco de investimento, média de 87.3% (GPT-5.2: 68.4%)
  • Em avaliação de apresentações, avaliadores humanos preferiram os resultados do GPT-5.4 em 68.0% dos casos (melhor acabamento estético, diversidade visual e uso de geração de imagens)
  • Redução de alucinações e erros: com base em prompts em que usuários reportaram erros factuais, a probabilidade de falsidade em alegações individuais caiu 33%, e a probabilidade de a resposta inteira conter erro caiu 18% (vs. GPT-5.2)

Janela de contexto de 1M e desempenho em contexto longo

  • Suporta até 1M tokens de contexto, permitindo que agentes planejem, executem e validem tarefas de longo alcance
  • No Codex, há suporte experimental à janela de contexto de 1M, configurável por model_context_window e model_auto_compact_token_limit
    • Solicitações acima da janela padrão de 272K são cobradas com tarifa em dobro
  • Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
  • OpenAI MRCR v2 8-needle: 97.3% em 4K–8K, 79.3% em 128K–256K, 36.6% em 512K–1M

Raciocínio abstrato e benchmarks acadêmicos

  • ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
  • O GPT-5.4 Pro alcançou 83.3% no ARC-AGI-2
  • Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
  • FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), e o GPT-5.4 Pro chegou a 38.0%
  • GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
  • Humanity's Last Exam: 39.8% sem uso de ferramentas, 52.1% com uso de ferramentas (GPT-5.2: 34.5% e 45.5%, respectivamente)
    • O GPT-5.4 Pro atingiu 58.7% com uso de ferramentas

Segurança e proteção

  • Continua aprimorando as proteções introduzidas no GPT-5.3-Codex e foi classificado com alta capacidade cibernética no Preparedness Framework
  • Stack ampliada de segurança cibernética: inclui sistemas de monitoramento, controle de acesso baseado em confiança e bloqueio assíncrono em superfícies com Zero Data Retention (ZDR)
  • Considerando a natureza de uso dual das capacidades de cibersegurança, adota uma abordagem preventiva de implantação; como a melhoria de precisão dos classificadores ainda está em andamento, pode haver alguns falsos positivos
  • O objetivo é manter as proteções contra uso indevido enquanto reduz recusas desnecessárias e respostas excessivamente insinuativas
  • A pesquisa sobre monitoramento de Chain-of-Thought (CoT) continua, e foi lançada a nova ferramenta open source de avaliação CoT controllability
    • A capacidade de controle de CoT no GPT-5.4 Thinking é baixa, o que é positivo para a segurança por dificultar que o modelo oculte seu raciocínio

Preços e informações de lançamento

  • Nome do modelo na API: gpt-5.4; versão Pro: gpt-5.4-pro
  • Preços da API (por M de tokens):
    • gpt-5.4: entrada US$ 2.50, entrada em cache US$ 0.25, saída US$ 15
    • gpt-5.4-pro: entrada US$ 30, saída US$ 180
    • gpt-5.2: entrada US$ 1.75, entrada em cache US$ 0.175, saída US$ 14
  • O preço por token é mais alto que no GPT-5.2, mas a melhora na eficiência de tokens reduz o uso total por tarefa
  • Os preços de Batch e Flex são metade do padrão, e o Priority Processing custa o dobro do padrão
  • No ChatGPT, o GPT-5.4 Thinking está disponível imediatamente para usuários Plus, Team e Pro, substituindo o GPT-5.2 Thinking
    • O GPT-5.2 Thinking será mantido por 3 meses na seção Legacy Models para usuários pagos e será encerrado em 5 de junho de 2026
    • Planos Enterprise e Edu podem ativar acesso antecipado nas configurações de administrador
    • O GPT-5.4 Pro está disponível nos planos Pro e Enterprise
  • O GPT-5.4 é o primeiro modelo principal de raciocínio a integrar as capacidades de codificação de fronteira do GPT-5.3-Codex, e os modelos Instant e Thinking devem evoluir em ritmos diferentes no futuro

2 comentários

 
helio 2026-03-06

Ao ativar o modo /fast no Codex, a velocidade de tokens fica até 1,5x mais rápida, mantendo o mesmo modelo e o mesmo nível de inteligência. Na API, isso corresponde a Priority Processing.
O Priority Processing custa o dobro do preço do padrão
Solicitações que excederem a janela de contexto padrão de 272K serão cobradas em dobro

 
GN⁺ 2026-03-06
Comentários do Hacker News
  • A caixa “Ask ChatGPT” no fim do post do blog foi engraçada
    Se você pede para resumir o conteúdo do texto, abre uma nova janela, mas a única resposta que volta é “não posso acessar URLs externas”
    Fico curioso se a OpenAI sabe que esse recurso não funciona de fato

    • Parece que isso só não funciona para usuários deslogados
      Quando eu estava logado funcionou normalmente, e enviei um bug report para a equipe
    • Quando eu testei, o resumo funcionou normalmente
      Veja o link de exemplo compartilhado
      Eu também estava logado
    • Para mim também funcionou bem no estado logado
      Provavelmente o acesso a URLs externas muda dependendo de estar logado ou não
    • Usei o Claude de novo depois de muito tempo, e a UX tinha melhorado bastante
      Parece que a Anthropic dá mais atenção a esse tipo de detalhe de UX
    • Fiquei me perguntando se aquela mensagem não era por causa de questões de copyright
  • Sinto que a linha de modelos da OpenAI ficou complexa demais
    Tem GPT‑5.1, 5.2, 5.4 misturado com Codex 5.3 e Instant 5.3
    Enquanto isso, a Anthropic separa claramente só três modelos, e o Google ainda só tem modelos Preview
    Há reclamações de que, como desenvolvedor, é difícil usar versões estáveis

    • Isso me lembra o meme das ferramentas antigas do Google vs as novas ferramentas beta
      A situação de ter que escolher sempre entre uma das duas continua se repetindo
    • Dizer que a numeração de versões é confusa parece muito procurar pelo em ovo
      Qualquer engenheiro entende fácil que 5.4 > 5.2 > 5.1
    • O Google avisou que vai descontinuar (deprecate) os modelos 2.5 em breve
      O 3.x ainda é Preview, então fica confuso
    • A Anthropic também tem um sistema de versões bagunçado
      As versões entre Opus, Sonnet e Haiku são todas diferentes, e a estrutura de preços também é complexa
      No fim, todas as empresas estão passando por problemas parecidos
    • Todo mês sai um modelo melhor, então não há muito motivo para insistir no mesmo modelo
      Estamos numa era em que dá para migrar fácil só trocando a API
  • O ponto principal do GPT‑5.4 é a janela de contexto de 1M de tokens
    Pela tabela oficial de preços, não há cobrança extra acima de 200k
    É muito mais barato que o Opus 4.6, mas ainda fico em dúvida se 1M de contexto traz ganho prático de verdade
    Segundo a documentação atualizada, ele substitui o GPT‑5.3‑Codex

    • Segundo a documentação do modelo,
      acima de 272K tokens é cobrado 2x na entrada e 1,5x na saída
    • Contexto longo vs compactação (compaction) é sempre um dilema
      Quanto mais tokens, maior o custo e a latência
      Nos testes internos da OpenAI, contexto curto foi mais eficiente na maioria dos casos
      (comentário de funcionário)
    • O Claude precisa de menos tokens para a mesma tarefa, então
      a comparação deveria ser feita por custo por tarefa
      Na prática, o custo do GPT‑5.x e do Opus fica em nível parecido
      Resultado real no trabalho importa mais do que benchmark
    • A maioria olha só para a tabela oficial de preços, mas
      na prática a documentação para desenvolvedores é mais precisa
      A tarifa base só vale até 272k
    • O problema de context rot ainda existe, mas
      a Anthropic tem planos de mitigá-lo com RL para tarefas longas
  • Usei o GPT‑5.4 algumas vezes, e a clareza da escrita e capacidade de análise me impressionaram
    Ele escreve de forma muito mais natural e humana que o 5.3‑Codex
    Talvez isso seja porque meu AGENTS.md pede linguagem simples

    • Mas, no meu codebase, ele deixou passar um bug crítico de perda de dados
    • Toda vez que sai um modelo novo aparece um post dizendo que “o modelo anterior era primitivo”
      Parece o mesmo padrão se repetindo
    • Eu também migrei do Opus para o Codex, e, embora o raciocínio seja mais lento, a precisão aumentou
      O Claude passa uma sensação relativamente mais solta
    • Fico curioso para saber se usando o mesmo arquivo AGENTS.md sairia o mesmo resultado
    • Segundo pesquisas recentes, incluir AGENTS.md na verdade reduz o desempenho
  • A OpenAI evitou por 8 meses a confusão na numeração de versões, mas no fim tudo ficou complexo de novo
    Há nomes misturados como GPT‑5.3 Instant e GPT‑5.4 Thinking

    • É confuso entender a diferença entre GPT‑5.3 Instant e gpt‑5.3‑chat
    • Na verdade também existia o 5.3 Codex
    • Os modelos Instant são bons para resumo ou busca, mas em conversas complexas tendem a perder o contexto com facilidade
      É preciso usar conforme o caso
  • A demo do jogo de RPG no blog foi impressionante
    Ficou num nível parecido com “Battle Brothers” e foi um bom exemplo de engenharia autônoma

    • Foi surpreendente ver a IA criar de uma vez só um clone de RollerCoaster Tycoon
      Nesse ritmo, o mercado de ferramentas low-code pode acabar ameaçado
    • Mas, na prática, pareceu só uma demo simples
    • Provavelmente isso foi graças à integração com o Playwright
      O Codex agora consegue depurar e testar webapps visualmente
  • Parece que esse modelo também vai ser usado nas áreas militar e de segurança

    • Dizem que a pontuação de segurança relacionada à violência caiu de 91% para 83%
    • Fico curioso se também divulgaram resultados em benchmarks militares (ArtificialSuperSoldier etc.)
    • Será que também poderia ser usado no estilo da Anthropic, como os modelos Claude?
    • A indústria da publicidade também deve cobiçar essa tecnologia
    • Os militares ainda usam a versão 4.1, então upgrades devem demorar
  • O GPT‑5.4 demonstrou a capacidade de interpretar screenshots do navegador e clicar na interface do Gmail para enviar e-mails
    Mas acho que usar a API do Gmail seria mais eficiente do que fazer isso dessa forma

    • A maioria dos sites não tem API ou tem documentação ruim
      Screenshots fornecem documentação, API e meio de navegação ao mesmo tempo
    • Parece aquela ideia de construir um robô humanoide para usar ferramentas feitas para mãos humanas
      Se funcionar, a generalidade aumenta, mas a abordagem via API continua válida
    • Muitos serviços não têm vontade de expor APIs
      Esse método pode contornar esse tipo de limitação
    • Um modelo que aprendeu a usar computadores pode ser usado em qualquer lugar, enquanto
      um modelo que só lida com API não pode
      Em termos de difusão econômica, o primeiro tem mais valor
    • É parecido com o motivo de a Wikipedia receber mais web scraping do que uso da API
      No fim, conveniência vem primeiro
  • No meu trabalho cotidiano de programação, os 3 principais agentes de coding já bastam
    No SWE‑bench Verified, o GPT‑5.2 Codex fez 72.8 pontos, e o GPT‑5.4 subiu cerca de 2 pontos
    Não é um salto enorme, mas houve melhora
    No SWE‑bench, o Claude 4.6 Opus ainda lidera com 75.6 pontos
    Ainda assim, os recursos de agente do Codex CLI melhoraram bastante e já chegam perto do nível do Claude Code

  • É confuso ver a OpenAI unificar os modelos e depois voltar a lançar versões segmentadas
    GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... é coisa demais
    Mesmo assim, o suporte a janela de contexto de 1M é bem-vindo

    • Eu gosto de ter esse tipo de opção
      Dá para escolher conforme a necessidade, e o usuário comum ainda pode usar o modo Auto
    • Como a opção Auto ainda existe, não é um grande problema
    • Provavelmente a estrutura é de o GPT‑5 fazer roteamento automático entre vários modelos no backend