- O mais novo modelo de fronteira aplicado ao ChatGPT, API e Codex, unificando desempenho em raciocínio, codificação e fluxos de trabalho com agentes
- Inclui recurso nativo de uso do computador (
computer-use), permitindo que agentes manipulem diretamente sites e softwares para executar fluxos de trabalho complexos
- Suporta uma janela de contexto de até 1M tokens e reduz velocidade e custos com busca de ferramentas e uso eficiente de tokens
- No modo Thinking do ChatGPT, é possível ajustar a linha de raciocínio durante a resposta, com melhorias em pesquisa profunda na web e manutenção de contexto
- Absorve o desempenho de codificação do GPT-5.3-Codex e melhora bastante a precisão e eficiência em planilhas, apresentações e documentos
Visão geral do GPT‑5.4
- O GPT‑5.4 é o modelo mais poderoso e eficiente lançado ao mesmo tempo no ChatGPT (modo Thinking), na API e no Codex
- A versão GPT‑5.4 Pro oferece o máximo desempenho em tarefas complexas
- Integra as capacidades de codificação do GPT‑5.3‑Codex e reforça a precisão e a eficiência em ambientes profissionais, como planilhas, apresentações e documentos
- A integração entre ferramentas e ambientes de software foi melhorada, reduzindo as interações de ida e volta durante a execução de trabalho real
Melhorias no modo Thinking do ChatGPT
- O GPT-5.4 Thinking apresenta um planejamento prévio (
preamble) no início da tarefa, permitindo que o usuário ajuste a direção no meio da geração da resposta
- Foi projetado para que a saída final corresponda com mais precisão à intenção do usuário sem precisar de turnos adicionais
- Melhoria no desempenho de pesquisa profunda na web, especialmente eficaz em consultas muito específicas
- Em perguntas que exigem raciocínio prolongado, a capacidade de manter o contexto anterior foi aprimorada, fornecendo respostas de maior qualidade com mais rapidez
- Disponível imediatamente no chatgpt.com e no app Android; suporte ao app iOS previsto para depois
Uso do computador e capacidades de visão
- O GPT-5.4 é o primeiro modelo de uso geral a trazer recurso nativo de
computer-use
- Suporta tanto manipulação de computador baseada em código por meio de bibliotecas como Playwright quanto emissão de comandos de mouse e teclado com base em capturas de tela
- O comportamento pode ser ajustado por mensagens de desenvolvedor, e o
confirmation policy personalizado permite configurar individualmente o nível de tolerância a risco
- Alcançou 75.0% no OSWorld-Verified, superando o desempenho humano de 72.4% e avançando bastante em relação aos 47.3% do GPT-5.2
- No WebArena-Verified, alcançou 67.3% com interação baseada em DOM + capturas de tela (GPT-5.2: 65.4%)
- No Online-Mind2Web, atingiu 92.8% apenas com observação baseada em screenshots (ChatGPT Atlas Agent Mode: 70.9%)
Melhorias em percepção visual e parsing de documentos
- A capacidade geral de percepção visual aprimorada é a base do recurso de uso do computador
- No MMMU-Pro, sem uso de ferramentas: 81.2% (GPT-5.2: 79.5%); com uso de ferramentas: 82.1% (GPT-5.2: 80.4%)
- No OmniDocBench, atingiu erro médio (distância de edição normalizada) de 0.109 sem raciocínio (GPT-5.2: 0.140)
- Introduzido o novo nível de detalhe de entrada de imagem
original: suporte a percepção em fidelidade total de até 10.24M pixels ou dimensão máxima de 6000px
- O nível
high foi expandido para até 2.56M pixels ou dimensão máxima de 2048px
- Testes iniciais de usuários da API confirmaram forte melhora em localização, compreensão de imagens e precisão de clique
Desempenho em codificação
- Combina os pontos fortes de codificação do GPT-5.3-Codex com capacidades de trabalho profissional e uso do computador
- Alcançou 57.7% no SWE-Bench Pro (GPT-5.3-Codex: 56.8%, GPT-5.2: 55.6%)
- Oferece latência menor que o GPT-5.3-Codex em todos os níveis de raciocínio
- Com o modo
/fast ativado no Codex, entrega velocidade de tokens até 1,5x maior, mantendo o mesmo modelo e o mesmo nível de inteligência
- Na API, é possível acessar o mesmo desempenho acelerado por meio de Priority Processing
- Em tarefas complexas de frontend, gera resultados visivelmente mais estéticos e funcionais do que os modelos anteriores
- Lançado o recurso experimental do Codex "Playwright (Interactive)": suporte a depuração visual de apps web e Electron, com testes em tempo real de apps em desenvolvimento
Recurso Tool Search
- Antes, todas as definições de ferramentas eram incluídas previamente no prompt e consumiam de milhares a dezenas de milhares de tokens; com o Tool Search, apenas uma lista leve de ferramentas é fornecida, e as definições são buscadas dinamicamente quando necessário
- Em fluxos de trabalho intensivos em ferramentas, reduz drasticamente o uso de tokens e preserva o cache, melhorando tanto velocidade quanto custo
- O ganho de eficiência é especialmente grande em definições de ferramentas de servidores MCP com dezenas de milhares de tokens
- No benchmark MCP Atlas da Scale, com base em 250 tarefas, ao migrar todos os 36 servidores MCP para Tool Search, o uso total de tokens caiu 47%, mantendo a mesma precisão
Chamadas de ferramentas e desempenho de agentes
- O GPT-5.4 melhora a precisão e a eficiência de quando e como usar ferramentas durante o raciocínio
- Alcançou 54.6% no Toolathlon (GPT-5.2: 45.7%), com maior precisão em menos turnos
- Avalia tarefas reais em múltiplas etapas com uso de ferramentas, como ler e-mails, extrair anexos de tarefas, fazer upload, corrigir, e registrar resultados em planilhas
- Mesmo em cenários de baixa latência sem raciocínio, atingiu 64.3% no τ2-bench Telecom (GPT-5.2: 57.2%, GPT-4.1: 43.6%)
- No BrowseComp, marcou 82.7%, e o GPT-5.4 Pro chegou a 89.3%, estabelecendo um novo melhor resultado (GPT-5.2: 65.8%)
- Houve melhora na capacidade de buscar de forma persistente ao longo de várias rodadas em tarefas difíceis do tipo “agulha no palheiro”
Desempenho em trabalho profissional e tarefas de conhecimento
- No GDPval, foram avaliadas entregas reais de trabalho de 44 ocupações em 9 dos maiores setores da economia dos EUA (apresentações de vendas, planilhas contábeis, escalas de pronto atendimento, diagramas de manufatura, vídeos curtos etc.)
- GPT-5.4: 83.0% de correspondência ou superação do nível de especialistas (GPT-5.2: 70.9%)
- No benchmark interno de modelagem de planilhas de banco de investimento, média de 87.3% (GPT-5.2: 68.4%)
- Em avaliação de apresentações, avaliadores humanos preferiram os resultados do GPT-5.4 em 68.0% dos casos (melhor acabamento estético, diversidade visual e uso de geração de imagens)
- Redução de alucinações e erros: com base em prompts em que usuários reportaram erros factuais, a probabilidade de falsidade em alegações individuais caiu 33%, e a probabilidade de a resposta inteira conter erro caiu 18% (vs. GPT-5.2)
Janela de contexto de 1M e desempenho em contexto longo
- Suporta até 1M tokens de contexto, permitindo que agentes planejem, executem e validem tarefas de longo alcance
- No Codex, há suporte experimental à janela de contexto de 1M, configurável por
model_context_window e model_auto_compact_token_limit
- Solicitações acima da janela padrão de 272K são cobradas com tarifa em dobro
- Graphwalks BFS 0K–128K: 93.0%, 256K–1M: 21.4%
- OpenAI MRCR v2 8-needle: 97.3% em 4K–8K, 79.3% em 128K–256K, 36.6% em 512K–1M
Raciocínio abstrato e benchmarks acadêmicos
- ARC-AGI-1 (Verified): 93.7% (GPT-5.2: 86.2%), ARC-AGI-2 (Verified): 73.3% (GPT-5.2: 52.9%)
- O GPT-5.4 Pro alcançou 83.3% no ARC-AGI-2
- Frontier Science Research: 33.0% (GPT-5.2: 25.2%), FrontierMath Tier 1–3: 47.6% (GPT-5.2: 40.7%)
- FrontierMath Tier 4: 27.1% (GPT-5.2: 18.8%), e o GPT-5.4 Pro chegou a 38.0%
- GPQA Diamond: 92.8% (GPT-5.2: 92.4%)
- Humanity's Last Exam: 39.8% sem uso de ferramentas, 52.1% com uso de ferramentas (GPT-5.2: 34.5% e 45.5%, respectivamente)
- O GPT-5.4 Pro atingiu 58.7% com uso de ferramentas
Segurança e proteção
- Continua aprimorando as proteções introduzidas no GPT-5.3-Codex e foi classificado com alta capacidade cibernética no Preparedness Framework
- Stack ampliada de segurança cibernética: inclui sistemas de monitoramento, controle de acesso baseado em confiança e bloqueio assíncrono em superfícies com Zero Data Retention (ZDR)
- Considerando a natureza de uso dual das capacidades de cibersegurança, adota uma abordagem preventiva de implantação; como a melhoria de precisão dos classificadores ainda está em andamento, pode haver alguns falsos positivos
- O objetivo é manter as proteções contra uso indevido enquanto reduz recusas desnecessárias e respostas excessivamente insinuativas
- A pesquisa sobre monitoramento de Chain-of-Thought (CoT) continua, e foi lançada a nova ferramenta open source de avaliação CoT controllability
- A capacidade de controle de CoT no GPT-5.4 Thinking é baixa, o que é positivo para a segurança por dificultar que o modelo oculte seu raciocínio
Preços e informações de lançamento
- Nome do modelo na API:
gpt-5.4; versão Pro: gpt-5.4-pro
- Preços da API (por M de tokens):
gpt-5.4: entrada US$ 2.50, entrada em cache US$ 0.25, saída US$ 15
gpt-5.4-pro: entrada US$ 30, saída US$ 180
gpt-5.2: entrada US$ 1.75, entrada em cache US$ 0.175, saída US$ 14
- O preço por token é mais alto que no GPT-5.2, mas a melhora na eficiência de tokens reduz o uso total por tarefa
- Os preços de Batch e Flex são metade do padrão, e o Priority Processing custa o dobro do padrão
- No ChatGPT, o GPT-5.4 Thinking está disponível imediatamente para usuários Plus, Team e Pro, substituindo o GPT-5.2 Thinking
- O GPT-5.2 Thinking será mantido por 3 meses na seção Legacy Models para usuários pagos e será encerrado em 5 de junho de 2026
- Planos Enterprise e Edu podem ativar acesso antecipado nas configurações de administrador
- O GPT-5.4 Pro está disponível nos planos Pro e Enterprise
- O GPT-5.4 é o primeiro modelo principal de raciocínio a integrar as capacidades de codificação de fronteira do GPT-5.3-Codex, e os modelos Instant e Thinking devem evoluir em ritmos diferentes no futuro
2 comentários
Comentários do Hacker News
A caixa “Ask ChatGPT” no fim do post do blog foi engraçada
Se você pede para resumir o conteúdo do texto, abre uma nova janela, mas a única resposta que volta é “não posso acessar URLs externas”
Fico curioso se a OpenAI sabe que esse recurso não funciona de fato
Quando eu estava logado funcionou normalmente, e enviei um bug report para a equipe
Veja o link de exemplo compartilhado
Eu também estava logado
Provavelmente o acesso a URLs externas muda dependendo de estar logado ou não
Parece que a Anthropic dá mais atenção a esse tipo de detalhe de UX
Sinto que a linha de modelos da OpenAI ficou complexa demais
Tem GPT‑5.1, 5.2, 5.4 misturado com Codex 5.3 e Instant 5.3
Enquanto isso, a Anthropic separa claramente só três modelos, e o Google ainda só tem modelos Preview
Há reclamações de que, como desenvolvedor, é difícil usar versões estáveis
A situação de ter que escolher sempre entre uma das duas continua se repetindo
Qualquer engenheiro entende fácil que 5.4 > 5.2 > 5.1
O 3.x ainda é Preview, então fica confuso
As versões entre Opus, Sonnet e Haiku são todas diferentes, e a estrutura de preços também é complexa
No fim, todas as empresas estão passando por problemas parecidos
Estamos numa era em que dá para migrar fácil só trocando a API
O ponto principal do GPT‑5.4 é a janela de contexto de 1M de tokens
Pela tabela oficial de preços, não há cobrança extra acima de 200k
É muito mais barato que o Opus 4.6, mas ainda fico em dúvida se 1M de contexto traz ganho prático de verdade
Segundo a documentação atualizada, ele substitui o GPT‑5.3‑Codex
acima de 272K tokens é cobrado 2x na entrada e 1,5x na saída
Quanto mais tokens, maior o custo e a latência
Nos testes internos da OpenAI, contexto curto foi mais eficiente na maioria dos casos
(comentário de funcionário)
a comparação deveria ser feita por custo por tarefa
Na prática, o custo do GPT‑5.x e do Opus fica em nível parecido
Resultado real no trabalho importa mais do que benchmark
na prática a documentação para desenvolvedores é mais precisa
A tarifa base só vale até 272k
a Anthropic tem planos de mitigá-lo com RL para tarefas longas
Usei o GPT‑5.4 algumas vezes, e a clareza da escrita e capacidade de análise me impressionaram
Ele escreve de forma muito mais natural e humana que o 5.3‑Codex
Talvez isso seja porque meu AGENTS.md pede linguagem simples
Parece o mesmo padrão se repetindo
O Claude passa uma sensação relativamente mais solta
A OpenAI evitou por 8 meses a confusão na numeração de versões, mas no fim tudo ficou complexo de novo
Há nomes misturados como GPT‑5.3 Instant e GPT‑5.4 Thinking
É preciso usar conforme o caso
A demo do jogo de RPG no blog foi impressionante
Ficou num nível parecido com “Battle Brothers” e foi um bom exemplo de engenharia autônoma
Nesse ritmo, o mercado de ferramentas low-code pode acabar ameaçado
O Codex agora consegue depurar e testar webapps visualmente
Parece que esse modelo também vai ser usado nas áreas militar e de segurança
O GPT‑5.4 demonstrou a capacidade de interpretar screenshots do navegador e clicar na interface do Gmail para enviar e-mails
Mas acho que usar a API do Gmail seria mais eficiente do que fazer isso dessa forma
Screenshots fornecem documentação, API e meio de navegação ao mesmo tempo
Se funcionar, a generalidade aumenta, mas a abordagem via API continua válida
Esse método pode contornar esse tipo de limitação
um modelo que só lida com API não pode
Em termos de difusão econômica, o primeiro tem mais valor
No fim, conveniência vem primeiro
No meu trabalho cotidiano de programação, os 3 principais agentes de coding já bastam
No SWE‑bench Verified, o GPT‑5.2 Codex fez 72.8 pontos, e o GPT‑5.4 subiu cerca de 2 pontos
Não é um salto enorme, mas houve melhora
No SWE‑bench, o Claude 4.6 Opus ainda lidera com 75.6 pontos
Ainda assim, os recursos de agente do Codex CLI melhoraram bastante e já chegam perto do nível do Claude Code
É confuso ver a OpenAI unificar os modelos e depois voltar a lançar versões segmentadas
GPT‑5.1, 5.2 Thinking, 5.3 Codex, 5.3 Instant, 5.4 Thinking, 5.4 Pro... é coisa demais
Mesmo assim, o suporte a janela de contexto de 1M é bem-vindo
Dá para escolher conforme a necessidade, e o usuário comum ainda pode usar o modo Auto