- Lançados três modelos: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano
- Oferecem desempenho geral aprimorado em relação ao GPT-4o, com ganhos especialmente notáveis em codificação, seguimento de instruções e compreensão de contexto longo
- Os três modelos suportam uma janela de contexto de até 1 milhão de tokens, sendo adequados para grandes bases de código e análise de documentos complexos
- Entregam excelente desempenho com menor latência e menor custo
- Principais melhorias de desempenho
- Capacidade de codificação: 54,6% no SWE-bench Verified, um aumento de +21,4 p.p. em relação ao GPT-4o
- Seguimento de instruções: pontuação de 38,3% no MultiChallenge, +10,5 p.p. acima do GPT-4o
- Compreensão multimodal de contexto longo: 72,0% no Video-MME (long, no subtitles), +6,7 p.p. em relação ao GPT-4o
- Características da família GPT-4.1
- GPT-4.1 mini: resultados de inteligência superiores aos do GPT-4o, metade da latência e 83% de redução de custo
- GPT-4.1 nano: menor custo e menor latência, mantendo alto desempenho
- O GPT-4.5 Preview será descontinuado em 14 de julho de 2025, com recomendação de migração para a série GPT-4.1
- Visão computacional (compreensão de imagem e multimodal)
- O GPT-4.1 mini supera o GPT-4o em benchmarks baseados em imagem
- Alta precisão em MMMU, MathVista, CharXiv e outros
- Video-MME (perguntas sobre vídeos de 30 a 60 minutos sem legendas): 72,0% de precisão
- Política de preços
- Todos os modelos já foram lançados e estão disponíveis para uso
- O GPT-4.1 é, em média, 26% mais barato que o GPT-4o
- O GPT-4.1 nano é o modelo de menor custo
- Entradas em cache têm 75% de desconto, e contexto longo não tem custo adicional
- Preço por modelo
- GPT-4.1: entrada a $2.00 por 1 milhão de tokens, saída a $8.00, custo médio de cerca de $1.84
- GPT-4.1 mini: entrada $0.40, saída $1.60, média de $0.42
- GPT-4.1 nano: entrada $0.10, saída $0.40, média de $0.12
- O desconto de cache de prompt foi ampliado dos 50% anteriores para até 75%
- Solicitações com contexto longo não têm cobrança adicional, com base apenas no uso de tokens
1 comentários
Comentários do Hacker News
Usuários do ChatGPT expressam confusão diante da necessidade de escolher entre vários modelos
Comparação de SWE-bench Verified, Aider Polyglot, custo, tokens de saída por segundo e mês/ano de corte de conhecimento
A OAI publicou um guia de prompts para o GPT 4.1
Segundo o anúncio da OpenAI, o GPT-4.1 ofereceu sugestões melhores em 55% dos casos em um confronto de geração de revisão de código com o Claude Sonnet 3.7
Em um Ted Talk recente, Sam disse que os modelos vêm e vão, mas que quer ser a melhor plataforma
Relato de experiência com o GPT-4.1 em uma base de código complexa
Levanta-se a necessidade de benchmarks sobre o desempenho de modelos com máximo de tokens muito alto
Grandes laboratórios de pesquisa em IA estão travando várias guerras de mercado ao mesmo tempo
Resultado do GPT-4.1 ao resumir um tópico do Hacker News com 164 comentários