OpenAI apresenta o GPT-4.1

(openai.com)

3 pontos por GN⁺ 2025-04-15 | 1 comentários | Compartilhar no WhatsApp

Lançados três modelos: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano
Oferecem desempenho geral aprimorado em relação ao GPT-4o, com ganhos especialmente notáveis em codificação, seguimento de instruções e compreensão de contexto longo
Os três modelos suportam uma janela de contexto de até 1 milhão de tokens, sendo adequados para grandes bases de código e análise de documentos complexos
Entregam excelente desempenho com menor latência e menor custo
Principais melhorias de desempenho
- Capacidade de codificação: 54,6% no SWE-bench Verified, um aumento de +21,4 p.p. em relação ao GPT-4o
- Seguimento de instruções: pontuação de 38,3% no MultiChallenge, +10,5 p.p. acima do GPT-4o
- Compreensão multimodal de contexto longo: 72,0% no Video-MME (long, no subtitles), +6,7 p.p. em relação ao GPT-4o
Características da família GPT-4.1
- GPT-4.1 mini: resultados de inteligência superiores aos do GPT-4o, metade da latência e 83% de redução de custo
- GPT-4.1 nano: menor custo e menor latência, mantendo alto desempenho
O GPT-4.5 Preview será descontinuado em 14 de julho de 2025, com recomendação de migração para a série GPT-4.1
Visão computacional (compreensão de imagem e multimodal)
- O GPT-4.1 mini supera o GPT-4o em benchmarks baseados em imagem
- Alta precisão em MMMU, MathVista, CharXiv e outros
- Video-MME (perguntas sobre vídeos de 30 a 60 minutos sem legendas): 72,0% de precisão
Política de preços
- Todos os modelos já foram lançados e estão disponíveis para uso
- O GPT-4.1 é, em média, 26% mais barato que o GPT-4o
- O GPT-4.1 nano é o modelo de menor custo
- Entradas em cache têm 75% de desconto, e contexto longo não tem custo adicional
Preço por modelo
- GPT-4.1: entrada a $2.00 por 1 milhão de tokens, saída a $8.00, custo médio de cerca de $1.84
- GPT-4.1 mini: entrada $0.40, saída $1.60, média de $0.42
- GPT-4.1 nano: entrada $0.10, saída $0.40, média de $0.12
- O desconto de cache de prompt foi ampliado dos 50% anteriores para até 75%
- Solicitações com contexto longo não têm cobrança adicional, com base apenas no uso de tokens

1 comentários

GN⁺ 2025-04-15

Comentários do Hacker News

Usuários do ChatGPT expressam confusão diante da necessidade de escolher entre vários modelos
- O 4o permite busca na web, uso do Canvas, avaliação em Python no lado do servidor e geração de imagens, mas não tem cadeia de raciocínio
- O o3-mini permite busca na web, CoT e Canvas, mas não gera imagens
- O o1 permite CoT, mas não oferece Canvas, busca na web nem geração de imagens
- O Deep Research é poderoso, mas como só pode ser usado 10 vezes por mês, quase não é utilizado
- O 4.5 se destaca em escrita criativa, mas tem limite de uso e não está claro se oferece suporte a outros recursos
- Há questionamentos sobre por que o 4o "with scheduled tasks" é um modelo e não uma ferramenta
Comparação de SWE-bench Verified, Aider Polyglot, custo, tokens de saída por segundo e mês/ano de corte de conhecimento
- Comparação de desempenho e custo entre Claude, Gemini, GPT-4.1, DeepSeek R1 e Grok 3 Beta
- A comparação direta é difícil, pois podem estar incluídos ambientes de teste e níveis de raciocínio diferentes
A OAI publicou um guia de prompts para o GPT 4.1
- Dar persistência ao modelo ajuda a melhorar o desempenho
- Recomenda-se usar XML ou arxiv 2406.13121 (formato GDM) em vez de JSON
- O prompt deve ser colocado no topo e na parte inferior
Segundo o anúncio da OpenAI, o GPT-4.1 ofereceu sugestões melhores em 55% dos casos em um confronto de geração de revisão de código com o Claude Sonnet 3.7
- O GPT-4.1 se destaca em precisão e abrangência
Em um Ted Talk recente, Sam disse que os modelos vêm e vão, mas que quer ser a melhor plataforma
- Isso parece uma grande mudança
Relato de experiência com o GPT-4.1 em uma base de código complexa
- Parece o primeiro modelo agente da OpenAI
- Ainda precisa de melhorias, e as chamadas de ferramentas falham com frequência
- Lida pior com complexidade do que o Claude
- Quando a solicitação não é complexa demais, segue bem o pedido
Levanta-se a necessidade de benchmarks sobre o desempenho de modelos com máximo de tokens muito alto
- Houve experiência de queda de qualidade após 200k nos modelos Gemini
- Questiona-se se aumentar o limite máximo de tokens é realmente útil
Grandes laboratórios de pesquisa em IA estão travando várias guerras de mercado ao mesmo tempo
- Competem em várias frentes, como crescimento no mercado consumidor, cargas de trabalho corporativas, pesquisa de ponta, promessas de raciocínio e resposta à ameaça da DeepSeek
Resultado do GPT-4.1 ao resumir um tópico do Hacker News com 164 comentários
- Foi avaliado como bom em seguir instruções
- São apresentados o custo total em tokens e comparações com outros modelos

OpenAI apresenta o GPT-4.1

Leituras relacionadas

1 comentários

Comentários do Hacker News