- Implementam o desempenho do GPT‑5.4 em uma forma rápida e eficiente
- O GPT‑5.4 mini melhorou significativamente em codificação, raciocínio, compreensão multimodal e uso de ferramentas em relação ao GPT‑5 mini, e é mais de 2 vezes mais rápido
- O GPT‑5.4 nano é o modelo mais pequeno e mais barato, adequado para classificação, extração de dados, ranking e tarefas auxiliares de codificação
- Ambos os modelos foram projetados para cargas de trabalho em que a latência é importante, sendo vantajosos para assistência de código com alta responsividade e aplicações multimodais em tempo real
- Com esses modelos, passa a ser possível montar sistemas de IA leves com equilíbrio otimizado entre velocidade, custo e desempenho
Visão geral do GPT‑5.4 mini e nano
- O GPT‑5.4 mini e o nano são versões compactas e de alta eficiência do GPT‑5.4, projetadas com foco em respostas rápidas em ambientes de alto volume de processamento
- O mini melhorou em codificação, raciocínio, compreensão multimodal e uso de ferramentas em relação ao GPT‑5 mini
- O nano é o modelo mais pequeno e mais barato, com desempenho melhorado em relação ao GPT‑5 nano
- Os dois modelos são otimizados para ambientes em que a latência afeta diretamente a experiência do produto (assistência de código, subagentes, interpretação de capturas de tela, inferência de imagens em tempo real etc.)
- A OpenAI afirma que “o melhor modelo nem sempre é o maior modelo” e destaca a rapidez de resposta e a capacidade estável de uso de ferramentas
Comparação de desempenho
- Nos principais benchmarks, o GPT‑5.4 mini registra pontuações mais altas que o GPT‑5 mini e apresenta desempenho próximo ao GPT‑5.4
- SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
- OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
- Em Terminal‑Bench 2.0, Toolathlon, GPQA Diamond e outros, o mini mostra alta eficiência de velocidade em relação ao desempenho
- O nano oferece eficiência de custo ideal em ambientes onde velocidade e custo são cruciais
Fluxo de trabalho de codificação
- Os dois modelos são adequados para ambientes de codificação que exigem iterações rápidas
- Operam com baixa latência em edição de código, exploração de codebase, geração de frontend e loops de depuração
- O GPT‑5.4 mini registra taxa de aprovação (pass rate) mais alta com latência semelhante à do GPT‑5 mini, aproximando-se do nível do GPT‑5.4
- No ambiente Codex, o modelo grande faz o planejamento e o julgamento, enquanto o mini atua como subagente que processa tarefas detalhadas em paralelo
- Ex.: busca de código, revisão de arquivos grandes, processamento de documentos etc.
- Essa estrutura se torna ainda mais útil à medida que a velocidade e o desempenho dos modelos pequenos melhoram
Uso de computador e processamento multimodal
- O GPT‑5.4 mini também mostra forte desempenho em tarefas multimodais relacionadas ao uso de computador
- Interpreta rapidamente capturas de tela de interfaces complexas para executar tarefas
- No OSWorld‑Verified, aproxima-se do GPT‑5.4 e supera com folga o GPT‑5 mini
Disponibilidade e preços
- GPT‑5.4 mini
- Disponível em API, Codex e ChatGPT
- Recursos compatíveis: entrada de texto e imagem, uso de ferramentas, chamada de função, busca na web e em arquivos, uso de computador, skills
- Janela de contexto de 400k, US$ 0.75 por 1 milhão de tokens de entrada e US$ 4.50 por 1 milhão de tokens de saída
- No Codex, usa apenas 30% da cota do GPT‑5.4 e consegue processar tarefas simples de codificação por cerca de 1/3 do custo
- No ChatGPT, é oferecido como recurso “Thinking” para usuários Free e Go, e para outros usuários é usado como modelo de fallback do GPT‑5.4 Thinking
- GPT‑5.4 nano
- Disponível exclusivamente via API
- US$ 0.20 por 1 milhão de tokens de entrada e US$ 1.25 por 1 milhão de tokens de saída
Detalhes adicionais de benchmarks
- Codificação
- SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
- Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
- Chamada de ferramentas
- MCP Atlas: mini 57.7%, nano 56.1%
- Toolathlon: mini 42.9%, nano 35.5%
- τ2‑bench (comunicação): mini 93.4%, nano 92.5%
- Avaliação de inteligência
- GPQA Diamond: mini 88.0%, nano 82.8%
- HLE w/ tool: mini 41.5%, nano 37.7%
- Multimodal e visão
- MMMUPro w/ Python: mini 78.0%, nano 69.5%
- OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (quanto menor, melhor)
- Contexto longo
- Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
- MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%
Avaliação geral
- O GPT‑5.4 mini e o nano são modelos leves que maximizam o equilíbrio entre velocidade, custo e desempenho, adequados para aplicações em tempo real em grande escala
- O mini pode desempenhar papel central em arquiteturas com subagentes ou sistemas multimodais, enquanto o nano é eficiente para tarefas simples e de alto volume
- Com esses dois modelos, a OpenAI fornece uma base para montar sistemas de IA de diferentes escalas com flexibilidade
1 comentários
Comentários no Hacker News
Verifiquei a velocidade atual via API e achei bem impressionante
O GPT-5 Mini geralmente ficava em 55~60 tokens/s, e no modo priority em cerca de 115~120 t/s; o GPT-5.4 Mini teve média de 180~190 t/s, e o GPT-5.4 Nano ficou em torno de 200 t/s
Para comparar, o Gemini 3 Flash ficou em cerca de 130 t/s (Gemini API), e no Vertex em torno de 120 t/s
Considerando também o preço, o Claude Opus 4.6 está em $5/$25, o GPT-5.4 em $2.5/$15 e o Gemini 3.1 Pro em $2/$12, entre outros
Compartilharam um grid comparando imagens de pelicanos geradas por vários modelos
Os modelos GPT são bons para conversa, mas minha experiência com trabalho agentic (agentic work) foi ruim
São lentos e não entendem bem as instruções. Com o mesmo prompt, outros modelos funcionam bem
O Opus é mais colaborativo, mas às vezes faz sugestões estranhas. O prompt do Codex está no repositório OpenCode
Acho que os lançamentos de modelos pequenos (mini) são mais significativos do que SOTA
Os modelos grandes já estão bons o suficiente para que a diferença seja difícil de perceber, mas nos pequenos há um salto de qualidade visível a cada nova versão
Além disso, são muito mais baratos, então é mais fácil aplicá-los em serviços reais
Fico me perguntando por que a avaliação de LLM ainda é feita tanto por feeling (“vibe check”)
A maioria das comparações se baseia em testes improvisados, não em experimentos sistemáticos
Pelos benchmarks, o GPT 5.4 Nano supera o GPT-5 Mini na maior parte das áreas, mas o preço sobe mesmo assim
GPT 5 mini: entrada $0.25 / saída $2.00 → GPT 5.4 mini: entrada $0.75 / saída $4.50
A pontuação no OSWorld é interessante. O Mini teve 72.1%, quase igual ao referencial humano de 72.4%
Portanto, a menos que haja um caso específico de falha, dá para usar o Mini como padrão
Mas em um pipeline multimodelo, se o subagente nano repassar todo o histórico de mensagens, a “etapa barata” deixa de fazer sentido
Fico curioso se alguém já mediu em que comprimento de contexto o nano deixa de ser mais rápido
Nos meus próprios benchmarks, o Nano também teve resultado melhor que o Mini
O 5.4 mini tem problemas de consistência, e mesmo com temperature 0 mistura respostas certas e erradas
Veja este link de comparação
A pontuação do 5.4 Mini no OSWorld surpreende. Antes os modelos eram lentos e imprecisos demais para agentes em tempo real, mas agora isso começa a parecer viável
Por exemplo, dá para comparar o comportamento de apps Win32 com suas versões web e criar testes automatizados. Também é eficiente em custo para escalar em grande volume
Pelo SWE-Bench, o 5.4 mini high tem precisão e preço parecidos com o GPT 5.4 low, mas a latência é maior (254s vs 171s)
Para tarefas simples, usar níveis baixos de effort ajuda mais a reduzir custo. Mesmo assim, o desempenho com contexto longo continua fraco