3 pontos por GN⁺ 2025-04-15 | 1 comentários | Compartilhar no WhatsApp
  • Lançados três modelos: GPT-4.1, GPT-4.1 mini e GPT-4.1 nano
  • Oferecem desempenho geral aprimorado em relação ao GPT-4o, com ganhos especialmente notáveis em codificação, seguimento de instruções e compreensão de contexto longo
  • Os três modelos suportam uma janela de contexto de até 1 milhão de tokens, sendo adequados para grandes bases de código e análise de documentos complexos
  • Entregam excelente desempenho com menor latência e menor custo
  • Principais melhorias de desempenho
    • Capacidade de codificação: 54,6% no SWE-bench Verified, um aumento de +21,4 p.p. em relação ao GPT-4o
    • Seguimento de instruções: pontuação de 38,3% no MultiChallenge, +10,5 p.p. acima do GPT-4o
    • Compreensão multimodal de contexto longo: 72,0% no Video-MME (long, no subtitles), +6,7 p.p. em relação ao GPT-4o
  • Características da família GPT-4.1
    • GPT-4.1 mini: resultados de inteligência superiores aos do GPT-4o, metade da latência e 83% de redução de custo
    • GPT-4.1 nano: menor custo e menor latência, mantendo alto desempenho
  • O GPT-4.5 Preview será descontinuado em 14 de julho de 2025, com recomendação de migração para a série GPT-4.1
  • Visão computacional (compreensão de imagem e multimodal)
    • O GPT-4.1 mini supera o GPT-4o em benchmarks baseados em imagem
    • Alta precisão em MMMU, MathVista, CharXiv e outros
    • Video-MME (perguntas sobre vídeos de 30 a 60 minutos sem legendas): 72,0% de precisão
  • Política de preços
    • Todos os modelos já foram lançados e estão disponíveis para uso
    • O GPT-4.1 é, em média, 26% mais barato que o GPT-4o
    • O GPT-4.1 nano é o modelo de menor custo
    • Entradas em cache têm 75% de desconto, e contexto longo não tem custo adicional
  • Preço por modelo
    • GPT-4.1: entrada a $2.00 por 1 milhão de tokens, saída a $8.00, custo médio de cerca de $1.84
    • GPT-4.1 mini: entrada $0.40, saída $1.60, média de $0.42
    • GPT-4.1 nano: entrada $0.10, saída $0.40, média de $0.12
    • O desconto de cache de prompt foi ampliado dos 50% anteriores para até 75%
    • Solicitações com contexto longo não têm cobrança adicional, com base apenas no uso de tokens

1 comentários

 
GN⁺ 2025-04-15
Comentários do Hacker News
  • Usuários do ChatGPT expressam confusão diante da necessidade de escolher entre vários modelos

    • O 4o permite busca na web, uso do Canvas, avaliação em Python no lado do servidor e geração de imagens, mas não tem cadeia de raciocínio
    • O o3-mini permite busca na web, CoT e Canvas, mas não gera imagens
    • O o1 permite CoT, mas não oferece Canvas, busca na web nem geração de imagens
    • O Deep Research é poderoso, mas como só pode ser usado 10 vezes por mês, quase não é utilizado
    • O 4.5 se destaca em escrita criativa, mas tem limite de uso e não está claro se oferece suporte a outros recursos
    • Há questionamentos sobre por que o 4o "with scheduled tasks" é um modelo e não uma ferramenta
  • Comparação de SWE-bench Verified, Aider Polyglot, custo, tokens de saída por segundo e mês/ano de corte de conhecimento

    • Comparação de desempenho e custo entre Claude, Gemini, GPT-4.1, DeepSeek R1 e Grok 3 Beta
    • A comparação direta é difícil, pois podem estar incluídos ambientes de teste e níveis de raciocínio diferentes
  • A OAI publicou um guia de prompts para o GPT 4.1

    • Dar persistência ao modelo ajuda a melhorar o desempenho
    • Recomenda-se usar XML ou arxiv 2406.13121 (formato GDM) em vez de JSON
    • O prompt deve ser colocado no topo e na parte inferior
  • Segundo o anúncio da OpenAI, o GPT-4.1 ofereceu sugestões melhores em 55% dos casos em um confronto de geração de revisão de código com o Claude Sonnet 3.7

    • O GPT-4.1 se destaca em precisão e abrangência
  • Em um Ted Talk recente, Sam disse que os modelos vêm e vão, mas que quer ser a melhor plataforma

    • Isso parece uma grande mudança
  • Relato de experiência com o GPT-4.1 em uma base de código complexa

    • Parece o primeiro modelo agente da OpenAI
    • Ainda precisa de melhorias, e as chamadas de ferramentas falham com frequência
    • Lida pior com complexidade do que o Claude
    • Quando a solicitação não é complexa demais, segue bem o pedido
  • Levanta-se a necessidade de benchmarks sobre o desempenho de modelos com máximo de tokens muito alto

    • Houve experiência de queda de qualidade após 200k nos modelos Gemini
    • Questiona-se se aumentar o limite máximo de tokens é realmente útil
  • Grandes laboratórios de pesquisa em IA estão travando várias guerras de mercado ao mesmo tempo

    • Competem em várias frentes, como crescimento no mercado consumidor, cargas de trabalho corporativas, pesquisa de ponta, promessas de raciocínio e resposta à ameaça da DeepSeek
  • Resultado do GPT-4.1 ao resumir um tópico do Hacker News com 164 comentários

    • Foi avaliado como bom em seguir instruções
    • São apresentados o custo total em tokens e comparações com outros modelos