3 pontos por GN⁺ 2026-03-18 | 1 comentários | Compartilhar no WhatsApp
  • Implementam o desempenho do GPT‑5.4 em uma forma rápida e eficiente
  • O GPT‑5.4 mini melhorou significativamente em codificação, raciocínio, compreensão multimodal e uso de ferramentas em relação ao GPT‑5 mini, e é mais de 2 vezes mais rápido
  • O GPT‑5.4 nano é o modelo mais pequeno e mais barato, adequado para classificação, extração de dados, ranking e tarefas auxiliares de codificação
  • Ambos os modelos foram projetados para cargas de trabalho em que a latência é importante, sendo vantajosos para assistência de código com alta responsividade e aplicações multimodais em tempo real
  • Com esses modelos, passa a ser possível montar sistemas de IA leves com equilíbrio otimizado entre velocidade, custo e desempenho

Visão geral do GPT‑5.4 mini e nano

  • O GPT‑5.4 mini e o nano são versões compactas e de alta eficiência do GPT‑5.4, projetadas com foco em respostas rápidas em ambientes de alto volume de processamento
    • O mini melhorou em codificação, raciocínio, compreensão multimodal e uso de ferramentas em relação ao GPT‑5 mini
    • O nano é o modelo mais pequeno e mais barato, com desempenho melhorado em relação ao GPT‑5 nano
  • Os dois modelos são otimizados para ambientes em que a latência afeta diretamente a experiência do produto (assistência de código, subagentes, interpretação de capturas de tela, inferência de imagens em tempo real etc.)
  • A OpenAI afirma que “o melhor modelo nem sempre é o maior modelo” e destaca a rapidez de resposta e a capacidade estável de uso de ferramentas

Comparação de desempenho

  • Nos principais benchmarks, o GPT‑5.4 mini registra pontuações mais altas que o GPT‑5 mini e apresenta desempenho próximo ao GPT‑5.4
    • SWE‑Bench Pro: GPT‑5.4 57.7%, mini 54.4%, nano 52.4%, GPT‑5 mini 45.7%
    • OSWorld‑Verified: GPT‑5.4 75.0%, mini 72.1%, nano 39.0%, GPT‑5 mini 42.0%
  • Em Terminal‑Bench 2.0, Toolathlon, GPQA Diamond e outros, o mini mostra alta eficiência de velocidade em relação ao desempenho
  • O nano oferece eficiência de custo ideal em ambientes onde velocidade e custo são cruciais

Fluxo de trabalho de codificação

  • Os dois modelos são adequados para ambientes de codificação que exigem iterações rápidas
    • Operam com baixa latência em edição de código, exploração de codebase, geração de frontend e loops de depuração
  • O GPT‑5.4 mini registra taxa de aprovação (pass rate) mais alta com latência semelhante à do GPT‑5 mini, aproximando-se do nível do GPT‑5.4
  • No ambiente Codex, o modelo grande faz o planejamento e o julgamento, enquanto o mini atua como subagente que processa tarefas detalhadas em paralelo
    • Ex.: busca de código, revisão de arquivos grandes, processamento de documentos etc.
  • Essa estrutura se torna ainda mais útil à medida que a velocidade e o desempenho dos modelos pequenos melhoram

Uso de computador e processamento multimodal

  • O GPT‑5.4 mini também mostra forte desempenho em tarefas multimodais relacionadas ao uso de computador
    • Interpreta rapidamente capturas de tela de interfaces complexas para executar tarefas
    • No OSWorld‑Verified, aproxima-se do GPT‑5.4 e supera com folga o GPT‑5 mini

Disponibilidade e preços

  • GPT‑5.4 mini
    • Disponível em API, Codex e ChatGPT
    • Recursos compatíveis: entrada de texto e imagem, uso de ferramentas, chamada de função, busca na web e em arquivos, uso de computador, skills
    • Janela de contexto de 400k, US$ 0.75 por 1 milhão de tokens de entrada e US$ 4.50 por 1 milhão de tokens de saída
    • No Codex, usa apenas 30% da cota do GPT‑5.4 e consegue processar tarefas simples de codificação por cerca de 1/3 do custo
    • No ChatGPT, é oferecido como recurso “Thinking” para usuários Free e Go, e para outros usuários é usado como modelo de fallback do GPT‑5.4 Thinking
  • GPT‑5.4 nano
    • Disponível exclusivamente via API
    • US$ 0.20 por 1 milhão de tokens de entrada e US$ 1.25 por 1 milhão de tokens de saída

Detalhes adicionais de benchmarks

  • Codificação
    • SWE‑Bench Pro: GPT‑5.4 mini 54.4%, nano 52.4%
    • Terminal‑Bench 2.0: mini 60.0%, nano 46.3%
  • Chamada de ferramentas
    • MCP Atlas: mini 57.7%, nano 56.1%
    • Toolathlon: mini 42.9%, nano 35.5%
    • τ2‑bench (comunicação): mini 93.4%, nano 92.5%
  • Avaliação de inteligência
    • GPQA Diamond: mini 88.0%, nano 82.8%
    • HLE w/ tool: mini 41.5%, nano 37.7%
  • Multimodal e visão
    • MMMUPro w/ Python: mini 78.0%, nano 69.5%
    • OmniDocBench 1.5(no tools): mini 0.1263, nano 0.2419 (quanto menor, melhor)
  • Contexto longo
    • Graphwalks BFS 0K–128K: mini 76.3%, nano 73.4%
    • MRCR v2 8‑needle 64K–128K: mini 47.7%, nano 44.2%

Avaliação geral

  • O GPT‑5.4 mini e o nano são modelos leves que maximizam o equilíbrio entre velocidade, custo e desempenho, adequados para aplicações em tempo real em grande escala
  • O mini pode desempenhar papel central em arquiteturas com subagentes ou sistemas multimodais, enquanto o nano é eficiente para tarefas simples e de alto volume
  • Com esses dois modelos, a OpenAI fornece uma base para montar sistemas de IA de diferentes escalas com flexibilidade

1 comentários

 
GN⁺ 2026-03-18
Comentários no Hacker News
  • Verifiquei a velocidade atual via API e achei bem impressionante
    O GPT-5 Mini geralmente ficava em 55~60 tokens/s, e no modo priority em cerca de 115~120 t/s; o GPT-5.4 Mini teve média de 180~190 t/s, e o GPT-5.4 Nano ficou em torno de 200 t/s
    Para comparar, o Gemini 3 Flash ficou em cerca de 130 t/s (Gemini API), e no Vertex em torno de 120 t/s
    Considerando também o preço, o Claude Opus 4.6 está em $5/$25, o GPT-5.4 em $2.5/$15 e o Gemini 3.1 Pro em $2/$12, entre outros

    • Só token/s não basta. Também é preciso considerar o TTFT (tempo até o primeiro token) e a latência total para entender o desempenho real no uso de API
    • Se a velocidade for alta, mas a etapa de raciocínio (reasoning) for longa, no fim pode ser até mais lento. Mesmo com token/s menor, um raciocínio mais focado pode ser mais eficiente
    • O Google parece ter vantagem em recursos e custo, então fico curioso por que as pessoas ainda escolhem GPT ou Claude
    • Seria bom medirem não só a velocidade de saída, mas também a velocidade de processamento do prompt entre os principais provedores
    • O preço dos modelos baratos subiu bastante. Antes era cômodo, agora já pesa no bolso
  • Compartilharam um grid comparando imagens de pelicanos geradas por vários modelos

    • Agora esse tipo de tarefa provavelmente já deve estar incluído nos dados de treino
    • Algumas imagens passam uma sensação de pesadelo, mas por isso mesmo gostei mais delas
    • Pessoalmente, a versão nano xhigh do pelicano foi a de que mais gostei
    • O nano medium parece ter sido gerado quando o servidor estava pegando fogo
  • Os modelos GPT são bons para conversa, mas minha experiência com trabalho agentic (agentic work) foi ruim
    São lentos e não entendem bem as instruções. Com o mesmo prompt, outros modelos funcionam bem

    • O 5.4 Mini é rápido o bastante para aplicações de voz, mas ainda falha na execução de instruções. Estou pensando em ajustar finamente o Qwen 3.5 9B
    • Gemini 3.1 e Claude Opus 4.6 passaram no critério, mas a linha ChatGPT está mais focada em conversa. Mantém mal o contexto, então é preciso validar o resultado
    • O GPT 5.2 Codex perde o contexto com frequência, enquanto o Claude funciona de forma bem mais natural no GitHub Copilot. O GPT leva 20 minutos até em refatorações simples
    • Fiz análise de dados com o 5.4 Pro e foi lento demais. O Sonnet 4.6 foi muito mais rápido. Para a maioria das tarefas, algo no nível do Haiku já basta
    • Já eu sinto o contrário: o Codex é o melhor de todos. Só acho uma pena o estilo frio dele, que deixa a conversa curta e dificulta intervir
      O Opus é mais colaborativo, mas às vezes faz sugestões estranhas. O prompt do Codex está no repositório OpenCode
  • Acho que os lançamentos de modelos pequenos (mini) são mais significativos do que SOTA
    Os modelos grandes já estão bons o suficiente para que a diferença seja difícil de perceber, mas nos pequenos há um salto de qualidade visível a cada nova versão
    Além disso, são muito mais baratos, então é mais fácil aplicá-los em serviços reais

    • O app web do Gemini muda automaticamente para Flash, e quando a resposta sai estranha ou a lógica falha eu percebo na hora. Ainda não é suficiente para uso cotidiano, mas é bom o bastante para automações simples
    • O GPT 5.4 é fraco para trabalho de UI em Svelte, e o Gemini tende a tentar implementar direto em vez de discutir. O Claude abusa do tipo any no TypeScript
    • Pelos resultados de comparação, a diferença entre 5 mini e 5.4 mini é pequena, mas o 5.4 mini é instável e ainda assim tem taxa de acerto maior
    • Na prática, os preços estão subindo. O GPT 5.4 mini custa cerca de 3 vezes mais que o 5.0 mini. O Gemini 3.1 Flash Lite também está mais caro do que antes
    • Também não é tão barato assim em relação aos modelos abertos, e a inteligência é menor. A menos que seja preciso minimizar a latência, há pouco motivo para usar
  • Fico me perguntando por que a avaliação de LLM ainda é feita tanto por feeling (“vibe check”)
    A maioria das comparações se baseia em testes improvisados, não em experimentos sistemáticos

    • Não é só um problema simples de engenharia. É porque a própria definição de inteligência e capacidade ainda é incompleta. Os benchmarks atuais têm muitos defeitos
    • Quando se cria benchmark, aparecem reclamações de que “não serve para nada”, mas avaliar no feeling é muito pior
    • Conjuntos de avaliação públicos logo são neutralizados pelo problema da dark forest. Como o poder preditivo também é baixo, talvez seja melhor tratar abordagens informais de forma mais científica
    • Também apareceu a piada: “avaliamos no feeling e codamos no feeling”
  • Pelos benchmarks, o GPT 5.4 Nano supera o GPT-5 Mini na maior parte das áreas, mas o preço sobe mesmo assim
    GPT 5 mini: entrada $0.25 / saída $2.00 → GPT 5.4 mini: entrada $0.75 / saída $4.50

    • O modelo ficou mais caro, mas a eficiência de custo por desempenho melhorou. Talvez haja menos motivo para manter modelos de menor desempenho
    • Como é um modelo maior, o custo de serving não pode ser menor. Se o desempenho melhorou, é natural que seja mais caro
  • A pontuação no OSWorld é interessante. O Mini teve 72.1%, quase igual ao referencial humano de 72.4%
    Portanto, a menos que haja um caso específico de falha, dá para usar o Mini como padrão
    Mas em um pipeline multimodelo, se o subagente nano repassar todo o histórico de mensagens, a “etapa barata” deixa de fazer sentido
    Fico curioso se alguém já mediu em que comprimento de contexto o nano deixa de ser mais rápido

    • (isso parece bot)
  • Nos meus próprios benchmarks, o Nano também teve resultado melhor que o Mini
    O 5.4 mini tem problemas de consistência, e mesmo com temperature 0 mistura respostas certas e erradas
    Veja este link de comparação

  • A pontuação do 5.4 Mini no OSWorld surpreende. Antes os modelos eram lentos e imprecisos demais para agentes em tempo real, mas agora isso começa a parecer viável

    • Alguns descartam o OSWorld chamando-o de “OpenClaw”, mas ele é forte como avaliação de interação completa segura
      Por exemplo, dá para comparar o comportamento de apps Win32 com suas versões web e criar testes automatizados. Também é eficiente em custo para escalar em grande volume
  • Pelo SWE-Bench, o 5.4 mini high tem precisão e preço parecidos com o GPT 5.4 low, mas a latência é maior (254s vs 171s)
    Para tarefas simples, usar níveis baixos de effort ajuda mais a reduzir custo. Mesmo assim, o desempenho com contexto longo continua fraco