OpenAI anuncia GPT‑5.4 Mini e Nano

(openai.com)

3 pontos por GN⁺ 2026-03-18 | 1 comentários | Compartilhar no WhatsApp

Implementam o desempenho do GPT‑5.4 em uma forma rápida e eficiente
O GPT‑5.4 mini melhorou significativamente em codificação, raciocínio, compreensão multimodal e uso de ferramentas em relação ao GPT‑5 mini, e é mais de 2 vezes mais rápido
O GPT‑5.4 nano é o modelo mais pequeno e mais barato, adequado para classificação, extração de dados, ranking e tarefas auxiliares de codificação
Ambos os modelos foram projetados para cargas de trabalho em que a latência é importante, sendo vantajosos para assistência de código com alta responsividade e aplicações multimodais em tempo real
Com esses modelos, passa a ser possível montar sistemas de IA leves com equilíbrio otimizado entre velocidade, custo e desempenho

Visão geral do GPT‑5.4 mini e nano

O GPT‑5.4 mini e o nano são versões compactas e de alta eficiência do GPT‑5.4, projetadas com foco em respostas rápidas em ambientes de alto volume de processamento
- O mini melhorou em codificação, raciocínio, compreensão multimodal e uso de ferramentas em relação ao GPT‑5 mini
- O nano é o modelo mais pequeno e mais barato, com desempenho melhorado em relação ao GPT‑5 nano
Os dois modelos são otimizados para ambientes em que a latência afeta diretamente a experiência do produto (assistência de código, subagentes, interpretação de capturas de tela, inferência de imagens em tempo real etc.)
A OpenAI afirma que “o melhor modelo nem sempre é o maior modelo” e destaca a rapidez de resposta e a capacidade estável de uso de ferramentas

Comparação de desempenho

Nos principais benchmarks, o GPT‑5.4 mini registra pontuações mais altas que o GPT‑5 mini e apresenta desempenho próximo ao GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
Em Terminal‑Bench 2.0, Toolathlon, GPQA Diamond e outros, o mini mostra alta eficiência de velocidade em relação ao desempenho
O nano oferece eficiência de custo ideal em ambientes onde velocidade e custo são cruciais

Fluxo de trabalho de codificação

Os dois modelos são adequados para ambientes de codificação que exigem iterações rápidas
- Operam com baixa latência em edição de código, exploração de codebase, geração de frontend e loops de depuração
O GPT‑5.4 mini registra taxa de aprovação (pass rate) mais alta com latência semelhante à do GPT‑5 mini, aproximando-se do nível do GPT‑5.4
No ambiente Codex, o modelo grande faz o planejamento e o julgamento, enquanto o mini atua como subagente que processa tarefas detalhadas em paralelo
- Ex.: busca de código, revisão de arquivos grandes, processamento de documentos etc.
Essa estrutura se torna ainda mais útil à medida que a velocidade e o desempenho dos modelos pequenos melhoram

Uso de computador e processamento multimodal

O GPT‑5.4 mini também mostra forte desempenho em tarefas multimodais relacionadas ao uso de computador
- Interpreta rapidamente capturas de tela de interfaces complexas para executar tarefas
- No OSWorld‑Verified, aproxima-se do GPT‑5.4 e supera com folga o GPT‑5 mini

Disponibilidade e preços

GPT‑5.4 mini
- Disponível em API, Codex e ChatGPT
- Recursos compatíveis: entrada de texto e imagem, uso de ferramentas, chamada de função, busca na web e em arquivos, uso de computador, skills
- Janela de contexto de 400k, US$ 0.75 por 1 milhão de tokens de entrada e US$ 4.50 por 1 milhão de tokens de saída
- No Codex, usa apenas 30% da cota do GPT‑5.4 e consegue processar tarefas simples de codificação por cerca de 1/3 do custo
- No ChatGPT, é oferecido como recurso “Thinking” para usuários Free e Go, e para outros usuários é usado como modelo de fallback do GPT‑5.4 Thinking
GPT‑5.4 nano
- Disponível exclusivamente via API
- US$ 0.20 por 1 milhão de tokens de entrada e US$ 1.25 por 1 milhão de tokens de saída

Detalhes adicionais de benchmarks

Codificação
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
Chamada de ferramentas
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench (comunicação): mini 93.4%, nano 92.5%
Avaliação de inteligência
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
Multimodal e visão
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (quanto menor, melhor)
Contexto longo
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Avaliação geral

O GPT‑5.4 mini e o nano são modelos leves que maximizam o equilíbrio entre velocidade, custo e desempenho, adequados para aplicações em tempo real em grande escala
O mini pode desempenhar papel central em arquiteturas com subagentes ou sistemas multimodais, enquanto o nano é eficiente para tarefas simples e de alto volume
Com esses dois modelos, a OpenAI fornece uma base para montar sistemas de IA de diferentes escalas com flexibilidade

1 comentários

GN⁺ 2026-03-18

Comentários no Hacker News

Verifiquei a velocidade atual via API e achei bem impressionante
O GPT-5 Mini geralmente ficava em 55~60 tokens/s, e no modo priority em cerca de 115~120 t/s; o GPT-5.4 Mini teve média de 180~190 t/s, e o GPT-5.4 Nano ficou em torno de 200 t/s
Para comparar, o Gemini 3 Flash ficou em cerca de 130 t/s (Gemini API), e no Vertex em torno de 120 t/s
Considerando também o preço, o Claude Opus 4.6 está em $5/$25, o GPT-5.4 em $2.5/$15 e o Gemini 3.1 Pro em $2/$12, entre outros
- Só token/s não basta. Também é preciso considerar o TTFT (tempo até o primeiro token) e a latência total para entender o desempenho real no uso de API
- Se a velocidade for alta, mas a etapa de raciocínio (reasoning) for longa, no fim pode ser até mais lento. Mesmo com token/s menor, um raciocínio mais focado pode ser mais eficiente
- O Google parece ter vantagem em recursos e custo, então fico curioso por que as pessoas ainda escolhem GPT ou Claude
- Seria bom medirem não só a velocidade de saída, mas também a velocidade de processamento do prompt entre os principais provedores
- O preço dos modelos baratos subiu bastante. Antes era cômodo, agora já pesa no bolso
Compartilharam um grid comparando imagens de pelicanos geradas por vários modelos
- Agora esse tipo de tarefa provavelmente já deve estar incluído nos dados de treino
- Algumas imagens passam uma sensação de pesadelo, mas por isso mesmo gostei mais delas
- Pessoalmente, a versão nano xhigh do pelicano foi a de que mais gostei
- O nano medium parece ter sido gerado quando o servidor estava pegando fogo
Os modelos GPT são bons para conversa, mas minha experiência com trabalho agentic (agentic work) foi ruim
São lentos e não entendem bem as instruções. Com o mesmo prompt, outros modelos funcionam bem
- O 5.4 Mini é rápido o bastante para aplicações de voz, mas ainda falha na execução de instruções. Estou pensando em ajustar finamente o Qwen 3.5 9B
- Gemini 3.1 e Claude Opus 4.6 passaram no critério, mas a linha ChatGPT está mais focada em conversa. Mantém mal o contexto, então é preciso validar o resultado
- O GPT 5.2 Codex perde o contexto com frequência, enquanto o Claude funciona de forma bem mais natural no GitHub Copilot. O GPT leva 20 minutos até em refatorações simples
- Fiz análise de dados com o 5.4 Pro e foi lento demais. O Sonnet 4.6 foi muito mais rápido. Para a maioria das tarefas, algo no nível do Haiku já basta
- Já eu sinto o contrário: o Codex é o melhor de todos. Só acho uma pena o estilo frio dele, que deixa a conversa curta e dificulta intervir
  O Opus é mais colaborativo, mas às vezes faz sugestões estranhas. O prompt do Codex está no repositório OpenCode
Acho que os lançamentos de modelos pequenos (mini) são mais significativos do que SOTA
Os modelos grandes já estão bons o suficiente para que a diferença seja difícil de perceber, mas nos pequenos há um salto de qualidade visível a cada nova versão
Além disso, são muito mais baratos, então é mais fácil aplicá-los em serviços reais
- O app web do Gemini muda automaticamente para Flash, e quando a resposta sai estranha ou a lógica falha eu percebo na hora. Ainda não é suficiente para uso cotidiano, mas é bom o bastante para automações simples
- O GPT 5.4 é fraco para trabalho de UI em Svelte, e o Gemini tende a tentar implementar direto em vez de discutir. O Claude abusa do tipo any no TypeScript
- Pelos resultados de comparação, a diferença entre 5 mini e 5.4 mini é pequena, mas o 5.4 mini é instável e ainda assim tem taxa de acerto maior
- Na prática, os preços estão subindo. O GPT 5.4 mini custa cerca de 3 vezes mais que o 5.0 mini. O Gemini 3.1 Flash Lite também está mais caro do que antes
- Também não é tão barato assim em relação aos modelos abertos, e a inteligência é menor. A menos que seja preciso minimizar a latência, há pouco motivo para usar
Fico me perguntando por que a avaliação de LLM ainda é feita tanto por feeling (“vibe check”)
A maioria das comparações se baseia em testes improvisados, não em experimentos sistemáticos
- Não é só um problema simples de engenharia. É porque a própria definição de inteligência e capacidade ainda é incompleta. Os benchmarks atuais têm muitos defeitos
- Quando se cria benchmark, aparecem reclamações de que “não serve para nada”, mas avaliar no feeling é muito pior
- Conjuntos de avaliação públicos logo são neutralizados pelo problema da dark forest. Como o poder preditivo também é baixo, talvez seja melhor tratar abordagens informais de forma mais científica
- Também apareceu a piada: “avaliamos no feeling e codamos no feeling”
Pelos benchmarks, o GPT 5.4 Nano supera o GPT-5 Mini na maior parte das áreas, mas o preço sobe mesmo assim
GPT 5 mini: entrada $0.25 / saída $2.00 → GPT 5.4 mini: entrada $0.75 / saída $4.50
- O modelo ficou mais caro, mas a eficiência de custo por desempenho melhorou. Talvez haja menos motivo para manter modelos de menor desempenho
- Como é um modelo maior, o custo de serving não pode ser menor. Se o desempenho melhorou, é natural que seja mais caro
A pontuação no OSWorld é interessante. O Mini teve 72.1%, quase igual ao referencial humano de 72.4%
Portanto, a menos que haja um caso específico de falha, dá para usar o Mini como padrão
Mas em um pipeline multimodelo, se o subagente nano repassar todo o histórico de mensagens, a “etapa barata” deixa de fazer sentido
Fico curioso se alguém já mediu em que comprimento de contexto o nano deixa de ser mais rápido
- (isso parece bot)
Nos meus próprios benchmarks, o Nano também teve resultado melhor que o Mini
O 5.4 mini tem problemas de consistência, e mesmo com temperature 0 mistura respostas certas e erradas
Veja este link de comparação
A pontuação do 5.4 Mini no OSWorld surpreende. Antes os modelos eram lentos e imprecisos demais para agentes em tempo real, mas agora isso começa a parecer viável
- Alguns descartam o OSWorld chamando-o de “OpenClaw”, mas ele é forte como avaliação de interação completa segura
  Por exemplo, dá para comparar o comportamento de apps Win32 com suas versões web e criar testes automatizados. Também é eficiente em custo para escalar em grande volume
Pelo SWE-Bench, o 5.4 mini high tem precisão e preço parecidos com o GPT 5.4 low, mas a latência é maior (254s vs 171s)
Para tarefas simples, usar níveis baixos de effort ajuda mais a reduzir custo. Mesmo assim, o desempenho com contexto longo continua fraco

OpenAI anuncia GPT‑5.4 Mini e Nano

Visão geral do GPT‑5.4 mini e nano

Comparação de desempenho

Fluxo de trabalho de codificação

Uso de computador e processamento multimodal

Disponibilidade e preços

Detalhes adicionais de benchmarks

Avaliação geral

Leituras relacionadas

1 comentários

Comentários no Hacker News