Lançamento do GPT‑5.4

(openai.com)

11 pontos por GN⁺ 2026-03-06 | 2 comentários | Compartilhar no WhatsApp

O mais novo modelo de fronteira aplicado ao ChatGPT, API e Codex, unificando desempenho em raciocínio, codificação e fluxos de trabalho com agentes
Inclui recurso nativo de uso do computador (computer-use), permitindo que agentes manipulem diretamente sites e softwares para executar fluxos de trabalho complexos
Suporta uma janela de contexto de até 1M tokens e reduz velocidade e custos com busca de ferramentas e uso eficiente de tokens
No modo Thinking do ChatGPT, é possível ajustar a linha de raciocínio durante a resposta, com melhorias em pesquisa profunda na web e manutenção de contexto
Absorve o desempenho de codificação do GPT-5.3-Codex e melhora bastante a precisão e eficiência em planilhas, apresentações e documentos

Visão geral do GPT‑5.4

O GPT‑5.4 é o modelo mais poderoso e eficiente lançado ao mesmo tempo no ChatGPT (modo Thinking), na API e no Codex
- A versão GPT‑5.4 Pro oferece o máximo desempenho em tarefas complexas
Integra as capacidades de codificação do GPT‑5.3‑Codex e reforça a precisão e a eficiência em ambientes profissionais, como planilhas, apresentações e documentos
A integração entre ferramentas e ambientes de software foi melhorada, reduzindo as interações de ida e volta durante a execução de trabalho real

Melhorias no modo Thinking do ChatGPT

O GPT-5.4 Thinking apresenta um planejamento prévio (preamble) no início da tarefa, permitindo que o usuário ajuste a direção no meio da geração da resposta
Foi projetado para que a saída final corresponda com mais precisão à intenção do usuário sem precisar de turnos adicionais
Melhoria no desempenho de pesquisa profunda na web, especialmente eficaz em consultas muito específicas
Em perguntas que exigem raciocínio prolongado, a capacidade de manter o contexto anterior foi aprimorada, fornecendo respostas de maior qualidade com mais rapidez
Disponível imediatamente no chatgpt.com e no app Android; suporte ao app iOS previsto para depois

Uso do computador e capacidades de visão

O GPT-5.4 é o primeiro modelo de uso geral a trazer recurso nativo de computer-use
Suporta tanto manipulação de computador baseada em código por meio de bibliotecas como Playwright quanto emissão de comandos de mouse e teclado com base em capturas de tela
O comportamento pode ser ajustado por mensagens de desenvolvedor, e o confirmation policy personalizado permite configurar individualmente o nível de tolerância a risco
Alcançou 75.0% no OSWorld-Verified, superando o desempenho humano de 72.4% e avançando bastante em relação aos 47.3% do GPT-5.2
No WebArena-Verified, alcançou 67.3% com interação baseada em DOM + capturas de tela (GPT-5.2: 65.4%)
No Online-Mind2Web, atingiu 92.8% apenas com observação baseada em screenshots (ChatGPT Atlas Agent Mode: 70.9%)

Melhorias em percepção visual e parsing de documentos

A capacidade geral de percepção visual aprimorada é a base do recurso de uso do computador
No MMMU-Pro, sem uso de ferramentas: 81.2% (GPT-5.2: 79.5%); com uso de ferramentas: 82.1% (GPT-5.2: 80.4%)
No OmniDocBench, atingiu erro médio (distância de edição normalizada) de 0.109 sem raciocínio (GPT-5.2: 0.140)
Introduzido o novo nível de detalhe de entrada de imagem original: suporte a percepção em fidelidade total de até 10.24M pixels ou dimensão máxima de 6000px
- O nível high foi expandido para até 2.56M pixels ou dimensão máxima de 2048px
- Testes iniciais de usuários da API confirmaram forte melhora em localização, compreensão de imagens e precisão de clique

Desempenho em codificação

Combina os pontos fortes de codificação do GPT-5.3-Codex com capacidades de trabalho profissional e uso do computador
Alcançou 57.7% no SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
Oferece latência menor que o GPT-5.3-Codex em todos os níveis de raciocínio
Com o modo /fast ativado no Codex, entrega velocidade de tokens até 1,5x maior, mantendo o mesmo modelo e o mesmo nível de inteligência
- Na API, é possível acessar o mesmo desempenho acelerado por meio de Priority Processing
Em tarefas complexas de frontend, gera resultados visivelmente mais estéticos e funcionais do que os modelos anteriores
Lançado o recurso experimental do Codex "Playwright (Interactive)": suporte a depuração visual de apps web e Electron, com testes em tempo real de apps em desenvolvimento

Recurso Tool Search

Antes, todas as definições de ferramentas eram incluídas previamente no prompt e consumiam de milhares a dezenas de milhares de tokens; com o Tool Search, apenas uma lista leve de ferramentas é fornecida, e as definições são buscadas dinamicamente quando necessário
Em fluxos de trabalho intensivos em ferramentas, reduz drasticamente o uso de tokens e preserva o cache, melhorando tanto velocidade quanto custo
O ganho de eficiência é especialmente grande em definições de ferramentas de servidores MCP com dezenas de milhares de tokens
No benchmark MCP Atlas da Scale, com base em 250 tarefas, ao migrar todos os 36 servidores MCP para Tool Search, o uso total de tokens caiu 47%, mantendo a mesma precisão

Chamadas de ferramentas e desempenho de agentes

O GPT-5.4 melhora a precisão e a eficiência de quando e como usar ferramentas durante o raciocínio
Alcançou 54.6% no Toolathlon (GPT-5.2: 45.7%), com maior precisão em menos turnos
- Avalia tarefas reais em múltiplas etapas com uso de ferramentas, como ler e-mails, extrair anexos de tarefas, fazer upload, corrigir, e registrar resultados em planilhas
Mesmo em cenários de baixa latência sem raciocínio, atingiu 64.3% no τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
No BrowseComp, marcou 82.7%, e o GPT-5.4 Pro chegou a 89.3%, estabelecendo um novo melhor resultado (GPT-5.2: 65.8%)
- Houve melhora na capacidade de buscar de forma persistente ao longo de várias rodadas em tarefas difíceis do tipo “agulha no palheiro”

Desempenho em trabalho profissional e tarefas de conhecimento

No GDPval, foram avaliadas entregas reais de trabalho de 44 ocupações em 9 dos maiores setores da economia dos EUA (apresentações de vendas, planilhas contábeis, escalas de pronto atendimento, diagramas de manufatura, vídeos curtos etc.)
- GPT-5.4: 83.0% de correspondência ou superação do nível de especialistas (GPT-5.2: 70.9%)
No benchmark interno de modelagem de planilhas de banco de investimento, média de 87.3% (GPT-5.2: 68.4%)
Em avaliação de apresentações, avaliadores humanos preferiram os resultados do GPT-5.4 em 68.0% dos casos (melhor acabamento estético, diversidade visual e uso de geração de imagens)
Redução de alucinações e erros: com base em prompts em que usuários reportaram erros factuais, a probabilidade de falsidade em alegações individuais caiu 33%, e a probabilidade de a resposta inteira conter erro caiu 18% (vs. GPT-5.2)

Janela de contexto de 1M e desempenho em contexto longo

Suporta até 1M tokens de contexto, permitindo que agentes planejem, executem e validem tarefas de longo alcance
No Codex, há suporte experimental à janela de contexto de 1M, configurável por model_context_window e model_auto_compact_token_limit
- Solicitações acima da janela padrão de 272K são cobradas com tarifa em dobro
Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
OpenAI MRCR v2 8-needle: 97.3% em 4K–8K, 79.3% em 128K–256K, 36.6% em 512K–1M

Raciocínio abstrato e benchmarks acadêmicos

ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
O GPT-5.4 Pro alcançou 83.3% no ARC-AGI-2
Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), e o GPT-5.4 Pro chegou a 38.0%
GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
Humanity's Last Exam: 39.8% sem uso de ferramentas, 52.1% com uso de ferramentas (GPT-5.2: 34.5% e 45.5%, respectivamente)
- O GPT-5.4 Pro atingiu 58.7% com uso de ferramentas

Segurança e proteção

Continua aprimorando as proteções introduzidas no GPT-5.3-Codex e foi classificado com alta capacidade cibernética no Preparedness Framework
Stack ampliada de segurança cibernética: inclui sistemas de monitoramento, controle de acesso baseado em confiança e bloqueio assíncrono em superfícies com Zero Data Retention (ZDR)
Considerando a natureza de uso dual das capacidades de cibersegurança, adota uma abordagem preventiva de implantação; como a melhoria de precisão dos classificadores ainda está em andamento, pode haver alguns falsos positivos
O objetivo é manter as proteções contra uso indevido enquanto reduz recusas desnecessárias e respostas excessivamente insinuativas
A pesquisa sobre monitoramento de Chain-of-Thought (CoT) continua, e foi lançada a nova ferramenta open source de avaliação CoT controllability
- A capacidade de controle de CoT no GPT-5.4 Thinking é baixa, o que é positivo para a segurança por dificultar que o modelo oculte seu raciocínio

Preços e informações de lançamento

Nome do modelo na API: gpt-5.4; versão Pro: gpt-5.4-pro
Preços da API (por M de tokens):
- gpt-5.4: entrada US$ 2.50, entrada em cache US$ 0.25, saída US$ 15
- gpt-5.4-pro: entrada US$ 30, saída US$ 180
- gpt-5.2: entrada US$ 1.75, entrada em cache US$ 0.175, saída US$ 14
O preço por token é mais alto que no GPT-5.2, mas a melhora na eficiência de tokens reduz o uso total por tarefa
Os preços de Batch e Flex são metade do padrão, e o Priority Processing custa o dobro do padrão
No ChatGPT, o GPT-5.4 Thinking está disponível imediatamente para usuários Plus, Team e Pro, substituindo o GPT-5.2 Thinking
- O GPT-5.2 Thinking será mantido por 3 meses na seção Legacy Models para usuários pagos e será encerrado em 5 de junho de 2026
- Planos Enterprise e Edu podem ativar acesso antecipado nas configurações de administrador
- O GPT-5.4 Pro está disponível nos planos Pro e Enterprise
O GPT-5.4 é o primeiro modelo principal de raciocínio a integrar as capacidades de codificação de fronteira do GPT-5.3-Codex, e os modelos Instant e Thinking devem evoluir em ritmos diferentes no futuro

2 comentários

helio 2026-03-06

Ao ativar o modo /fast no Codex, a velocidade de tokens fica até 1,5x mais rápida, mantendo o mesmo modelo e o mesmo nível de inteligência. Na API, isso corresponde a Priority Processing.
O Priority Processing custa o dobro do preço do padrão
Solicitações que excederem a janela de contexto padrão de 272K serão cobradas em dobro

GN⁺ 2026-03-06

Comentários do Hacker News

A caixa “Ask ChatGPT” no fim do post do blog foi engraçada
Se você pede para resumir o conteúdo do texto, abre uma nova janela, mas a única resposta que volta é “não posso acessar URLs externas”
Fico curioso se a OpenAI sabe que esse recurso não funciona de fato
- Parece que isso só não funciona para usuários deslogados
  Quando eu estava logado funcionou normalmente, e enviei um bug report para a equipe
- Quando eu testei, o resumo funcionou normalmente
  Veja o link de exemplo compartilhado
  Eu também estava logado
- Para mim também funcionou bem no estado logado
  Provavelmente o acesso a URLs externas muda dependendo de estar logado ou não
- Usei o Claude de novo depois de muito tempo, e a UX tinha melhorado bastante
  Parece que a Anthropic dá mais atenção a esse tipo de detalhe de UX
- Fiquei me perguntando se aquela mensagem não era por causa de questões de copyright
Sinto que a linha de modelos da OpenAI ficou complexa demais
Tem GPT‑5.1, 5.2, 5.4 misturado com Codex 5.3 e Instant 5.3
Enquanto isso, a Anthropic separa claramente só três modelos, e o Google ainda só tem modelos Preview
Há reclamações de que, como desenvolvedor, é difícil usar versões estáveis
- Isso me lembra o meme das ferramentas antigas do Google vs as novas ferramentas beta
  A situação de ter que escolher sempre entre uma das duas continua se repetindo
- Dizer que a numeração de versões é confusa parece muito procurar pelo em ovo
  Qualquer engenheiro entende fácil que 5.4 > 5.2 > 5.1
- O Google avisou que vai descontinuar (deprecate) os modelos 2.5 em breve
  O 3.x ainda é Preview, então fica confuso
- A Anthropic também tem um sistema de versões bagunçado
  As versões entre Opus, Sonnet e Haiku são todas diferentes, e a estrutura de preços também é complexa
  No fim, todas as empresas estão passando por problemas parecidos
- Todo mês sai um modelo melhor, então não há muito motivo para insistir no mesmo modelo
  Estamos numa era em que dá para migrar fácil só trocando a API
O ponto principal do GPT‑5.4 é a janela de contexto de 1M de tokens
Pela tabela oficial de preços, não há cobrança extra acima de 200k
É muito mais barato que o Opus 4.6, mas ainda fico em dúvida se 1M de contexto traz ganho prático de verdade
Segundo a documentação atualizada, ele substitui o GPT‑5.3‑Codex
- Segundo a documentação do modelo,
  acima de 272K tokens é cobrado 2x na entrada e 1,5x na saída
- Contexto longo vs compactação (compaction) é sempre um dilema
  Quanto mais tokens, maior o custo e a latência
  Nos testes internos da OpenAI, contexto curto foi mais eficiente na maioria dos casos
  (comentário de funcionário)
- O Claude precisa de menos tokens para a mesma tarefa, então
  a comparação deveria ser feita por custo por tarefa
  Na prática, o custo do GPT‑5.x e do Opus fica em nível parecido
  Resultado real no trabalho importa mais do que benchmark
- A maioria olha só para a tabela oficial de preços, mas
  na prática a documentação para desenvolvedores é mais precisa
  A tarifa base só vale até 272k
- O problema de context rot ainda existe, mas
  a Anthropic tem planos de mitigá-lo com RL para tarefas longas
Usei o GPT‑5.4 algumas vezes, e a clareza da escrita e capacidade de análise me impressionaram
Ele escreve de forma muito mais natural e humana que o 5.3‑Codex
Talvez isso seja porque meu AGENTS.md pede linguagem simples
- Mas, no meu codebase, ele deixou passar um bug crítico de perda de dados
- Toda vez que sai um modelo novo aparece um post dizendo que “o modelo anterior era primitivo”
  Parece o mesmo padrão se repetindo
- Eu também migrei do Opus para o Codex, e, embora o raciocínio seja mais lento, a precisão aumentou
  O Claude passa uma sensação relativamente mais solta
- Fico curioso para saber se usando o mesmo arquivo AGENTS.md sairia o mesmo resultado
- Segundo pesquisas recentes, incluir AGENTS.md na verdade reduz o desempenho
A OpenAI evitou por 8 meses a confusão na numeração de versões, mas no fim tudo ficou complexo de novo
Há nomes misturados como GPT‑5.3 Instant e GPT‑5.4 Thinking
- É confuso entender a diferença entre GPT‑5.3 Instant e gpt‑5.3‑chat
- Na verdade também existia o 5.3 Codex
- Os modelos Instant são bons para resumo ou busca, mas em conversas complexas tendem a perder o contexto com facilidade
  É preciso usar conforme o caso
A demo do jogo de RPG no blog foi impressionante
Ficou num nível parecido com “Battle Brothers” e foi um bom exemplo de engenharia autônoma
- Foi surpreendente ver a IA criar de uma vez só um clone de RollerCoaster Tycoon
  Nesse ritmo, o mercado de ferramentas low-code pode acabar ameaçado
- Mas, na prática, pareceu só uma demo simples
- Provavelmente isso foi graças à integração com o Playwright
  O Codex agora consegue depurar e testar webapps visualmente
Parece que esse modelo também vai ser usado nas áreas militar e de segurança
- Dizem que a pontuação de segurança relacionada à violência caiu de 91% para 83%
- Fico curioso se também divulgaram resultados em benchmarks militares (ArtificialSuperSoldier etc.)
- Será que também poderia ser usado no estilo da Anthropic, como os modelos Claude?
- A indústria da publicidade também deve cobiçar essa tecnologia
- Os militares ainda usam a versão 4.1, então upgrades devem demorar
O GPT‑5.4 demonstrou a capacidade de interpretar screenshots do navegador e clicar na interface do Gmail para enviar e-mails
Mas acho que usar a API do Gmail seria mais eficiente do que fazer isso dessa forma
- A maioria dos sites não tem API ou tem documentação ruim
  Screenshots fornecem documentação, API e meio de navegação ao mesmo tempo
- Parece aquela ideia de construir um robô humanoide para usar ferramentas feitas para mãos humanas
  Se funcionar, a generalidade aumenta, mas a abordagem via API continua válida
- Muitos serviços não têm vontade de expor APIs
  Esse método pode contornar esse tipo de limitação
- Um modelo que aprendeu a usar computadores pode ser usado em qualquer lugar, enquanto
  um modelo que só lida com API não pode
  Em termos de difusão econômica, o primeiro tem mais valor
- É parecido com o motivo de a Wikipedia receber mais web scraping do que uso da API
  No fim, conveniência vem primeiro
No meu trabalho cotidiano de programação, os 3 principais agentes de coding já bastam
No SWE‑bench Verified, o GPT‑5.2 Codex fez 72.8 pontos, e o GPT‑5.4 subiu cerca de 2 pontos
Não é um salto enorme, mas houve melhora
No SWE‑bench, o Claude 4.6 Opus ainda lidera com 75.6 pontos
Ainda assim, os recursos de agente do Codex CLI melhoraram bastante e já chegam perto do nível do Claude Code
É confuso ver a OpenAI unificar os modelos e depois voltar a lançar versões segmentadas
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... é coisa demais
Mesmo assim, o suporte a janela de contexto de 1M é bem-vindo
- Eu gosto de ter esse tipo de opção
  Dá para escolher conforme a necessidade, e o usuário comum ainda pode usar o modo Auto
- Como a opção Auto ainda existe, não é um grande problema
- Provavelmente a estrutura é de o GPT‑5 fazer roteamento automático entre vários modelos no backend

Lançamento do GPT‑5.4

Visão geral do GPT‑5.4

Melhorias no modo Thinking do ChatGPT

Uso do computador e capacidades de visão

Melhorias em percepção visual e parsing de documentos

Desempenho em codificação

Recurso Tool Search

Chamadas de ferramentas e desempenho de agentes

Desempenho em trabalho profissional e tarefas de conhecimento

Janela de contexto de 1M e desempenho em contexto longo

Raciocínio abstrato e benchmarks acadêmicos

Segurança e proteção

Preços e informações de lançamento

Leituras relacionadas

2 comentários

Comentários do Hacker News