2 pontos por GN⁺ 2025-03-03 | 2 comentários | Compartilhar no WhatsApp
  • Junto com o lançamento do GPT-4.5, a OpenAI divulgou primeiro o system card do modelo
  • No system card inicial, havia a frase "GPT-4.5 is not a frontier model" (GPT-4.5 não é um modelo de fronteira)
    • Depois, essa frase foi removida do post oficial no blog e do system card atualizado
  • Alguém na OpenAI aparentemente sentiu a necessidade de incluir essa frase. Mas então, "por que a OpenAI lançou isso?"
  • A principal contradição da afirmação de que ele não é um modelo de fronteira é que o GPT-4.5 é o maior modelo que o público em geral pode testar
    • Mesmo ampliando para um modelo desse porte, não ocorre um salto claro nas capacidades que medimos
    • A transição de GPT-3.5 → GPT-4 foi de okay para good
    • A mudança de GPT-4o → GPT-4.5 vai de great para really great
  • Como é muito difícil perceber as diferenças entre os modelos mais recentes, quem investe em IA e espera avanços pode acabar achando que eles são melhores do que realmente são
  • Este é um momento em que os limites econômicos do scaling ficam claros, sem o grande salto de desempenho que se esperava
    • A Anthropic também enfrenta um problema parecido, e foi confirmado que, após o Claude 3.7, ela vai treinar modelos muito maiores
  • O GPT-4.5 é um modelo que mostra progresso incremental, diferente dos saltos revolucionários anteriores
    • Isso mostra que, na pesquisa em IA, a simples expansão do pré-treinamento já não produz mais o mesmo nível de inovação de antes
    • Internamente, a OpenAI usa o GPT-4.5 há bastante tempo e é bem provável que o tenha usado para treinar outros modelos com base no GPT-4.5 (a julgar pelo cutdate em 2023)

O que o GPT-4.5 tem de bom

  • (Estas são algumas estimativas sobre o número de parâmetros do GPT-4.5 e do GPT-4o, e não se baseiam em informações vazadas, então a margem de erro é grande)
  • O GPT-4.5 é um modelo muito grande, e pode ser maior que o Grok 3
    • O GPT-4 era um modelo Mixture-of-Experts (MoE) com mais de 1 trilhão (1T) de parâmetros totais, e estima-se que tivesse cerca de 200B de parâmetros ativos
    • Há rumores de que modelos como GPT-4o ou Gemini Pro reduziram os parâmetros ativos para algo em torno de 60B
    • Ou seja, os modelos recentes vêm evoluindo reduzindo os parâmetros ativos e otimizando a infraestrutura para melhorar velocidade e custo
  • Estima-se que o GPT-4.5 exija cerca de 10 vezes mais computação (10X compute) que o GPT-4
    • 5 vezes mais parâmetros + 2 vezes mais dados = aumento de 10 vezes na computação
    • Os parâmetros totais podem chegar a 5–7 trilhões (5T–7T), com cerca de 600B de parâmetros ativos
  • Ainda assim, mesmo com esse nível de expansão, a melhora de desempenho é difícil de perceber na prática.
  • A partir daqui, a situação fica bem estranha. A OpenAI destacou 2 pontos nesta apresentação
    • Redução de alucinações: o modelo diminui a frequência com que gera informações incorretas
    • Melhora da inteligência emocional: consegue entender e expressar melhor contexto e emoções
    • Mas esses 2 pontos são características difíceis de avaliar objetivamente
  • Desempenho em benchmarks (com base em dados fornecidos pela OpenAI)
    • SimpleQA: o GPT-4.5 mostrou grande melhora na avaliação de conhecimento de mundo de modelos de IA
    • PersonQA: também teve o melhor desempenho em perguntas sobre pessoas específicas
    • GPQA (Google-proof QA): obteve bons resultados também em um indicador que mede raciocínio lógico sem busca de informação
  • Logo após o lançamento, surgiram opiniões entre especialistas em IA de que o GPT-4.5 é mais agradável de usar e escreve melhor
    • Porém, em avaliações de código e desempenho técnico, ele foi considerado mediano em comparação com modelos concorrentes como Claude 3.7 e R1
  • Comparação do estilo de escrita (resultado de uma enquete no X/Twitter feita por Karpathy)
    • GPT-4.5 vs. GPT-4o-latest: muitos usuários preferiram o estilo de escrita do GPT-4o-latest
    • Por quê? É bem possível que o GPT-4o-latest seja um modelo destilado (distilled) a partir desse novo modelo, antes chamado de Orion1, e como ele é muito menor, a velocidade de iteração é incomparavelmente melhor, o que pode favorecer mais o pós-treinamento
  • Tudo isso é o preço que a OpenAI precisa pagar para voltar ao 1º lugar no ranking do ChatBotArena
    • Espera-se que o GPT-4.5 consiga isso, mas o resultado ainda não está definido
  • Pela experiência prévia do autor usando o modelo, a lentidão incomodou no começo, mas a confiabilidade é alta o bastante para valer a pena continuar usando
    • Porém, não há necessidade de escolher o GPT-4.5 pagando mais por isso, e o o1 Pro da OpenAI e outros serviços pagos oferecem custo-benefício melhor

Por que o GPT-4.5 é caro

  • Quando o GPT-4 foi lançado, o preço também era bastante alto, e na prática era parecido com o do GPT-4.5
  • O preço inicial do GPT-4.5 é o seguinte:
    • Entrada (Input): $75.00 / 1M tokens
    • Entrada em cache (Cached Input): $37.50 / 1M tokens
    • Saída (Output): $150.00 / 1M tokens
    • Ou seja, ele começou com um preço muito mais alto que o dos modelos anteriores
  • Os modelos anteriores da OpenAI também começaram caros, mas há casos em que os preços foram reduzidos significativamente de forma gradual
    • GPT-4 (lançado em março de 2023)
      • No começo, custava $30 por 1 milhão na entrada e $60 por 1 milhão na saída
      • A versão com contexto de 32K era mais cara, com $60 na entrada e $120 na saída
    • GPT-4 Turbo (lançado em novembro de 2023)
      • Ficou bem mais barato, com preço reduzido para $10 na entrada e $30 na saída
    • GPT-4o (lançado em maio de 2024)
      • O preço caiu ainda mais, para $2.5 na entrada e $10 na saída, ficando mais de 10 vezes mais barato que o GPT-4
    • Assim, a OpenAI mostra um padrão de reduzir bastante os preços sempre que lança novos modelos
  • O motivo de o GPT-4.5 estar caro agora parece ser que ele está no início do lançamento e a margem foi definida alta
    • A OpenAI mencionou que não garante que o modelo continuará na API e que decidirá isso observando a reação dos usuários
  • Muitos especialistas esperam que, com o lançamento da GPU de próxima geração da Nvidia, a Blackwell, o custo caia, já que será possível operar modelos maiores com mais eficiência
  • Assim como os preços caíram de GPT-4 para GPT-4 Turbo e GPT-4o, há grande chance de que o GPT-4.5 também fique mais barato no futuro, talvez com uma versão como GPT-4.5 Turbo

O futuro do scaling

  • O scaling de modelos de linguagem ainda não morreu
    • Mas olhar de volta para por que esse anúncio pareceu tão estranho é muito importante para manter a lucidez diante da velocidade do avanço da IA
    • Entramos em uma era em que existem trade-offs entre diferentes tipos de scaling
  • Em resumo curto, "o GPT-4.5 é estranho, mas está à frente do seu tempo"
    • O GPT-4.5 não é só uma expansão simples do modelo, mas um sinal de que novas formas de scaling são necessárias
    • Isso significa que o avanço da IA não pode depender apenas de aumentar o tamanho do modelo (Scaling Up), mas precisa seguir outros caminhos — embora já soubéssemos disso pelo rápido avanço dos modelos de raciocínio
    • O verdadeiro impacto do GPT-4.5 aparece quando ele se integra ao rápido avanço de várias linhas
  • O artigo do R1 da DeepSeek e pesquisas posteriores em RL chegaram à conclusão de que quanto maior o modelo, mais eficaz tende a ser o treinamento com RL
    • É bem provável que o modelo o4 da OpenAI também seja treinado usando um modelo de raciocínio baseado no GPT-4.5
    • Os modelos atuais da OpenAI não seriam tão bons sem o GPT-4.5
  • Em menos de 1 ano, a maioria dos modelos pode evoluir para a escala do GPT-4.5, com velocidade muito maior
    • Melhorias mais “equilibradas” ajudarão a tornar mais aplicações robustas
    • A OpenAI e pesquisadores de outros laboratórios de IA estão tentando escalar modelos para além dos limites da infraestrutura atual
  • Se um frontier lab não ultrapassa os limites em todas as direções de scaling, então não está assumindo risco suficiente
    • Não é necessário lançar publicamente o modelo, mas vale especular por que exatamente a OpenAI quis fazer isso
    • Como há grande chance de o GPT-4.5 já estar sendo usado em outros sistemas internos e em breve também em outros produtos externos, lançar esse modelo não é um desvio, mas um processo natural rumo à próxima etapa
  • O GPT-4.5 é um modelo de fronteira, mas seu lançamento não é empolgante
    • O avanço da IA não é gratuito e exige muito esforço
    • O importante não é o GPT-4.5 em si, mas o verdadeiro valor dele aparecerá quando esse modelo se combinar com outras tecnologias

2 comentários

 
doolayer 2025-03-03

Como muitos benchmarks já estão saturados, parece natural a tendência de focar em usabilidade e alucinações.

 
GN⁺ 2025-03-03
Opiniões no Hacker News
  • O GPT-4.5 também tem corte de conhecimento em outubro de 2023

    • É possível que o pré-treinamento deste modelo tenha sido concluído há pelo menos 1 ano
    • A OpenAI pode ter se concentrado em outros projetos, como Q-star/strawberry
  • Os modelos de raciocínio da OpenAI podem não ser tão poderosos quanto o esperado

    • Estão surgindo modelos fortes sem raciocínio, como Gemini 2.0 Flash, Grok 3 e Sonnet 3.7
    • A OpenAI pode ter sentido a necessidade de lançar algo ao menos na aparência
  • O preço é um tanto misterioso

    • Pode refletir um modelo antigo, sem os truques mais recentes de eficiência
    • O GPT-4.5 pode ser uma forma de a OpenAI descobrir quanto as pessoas estão dispostas a pagar
  • O salto do GPT-4o para o 4.5 não é um grande salto

    • Foi precificado como um artigo de luxo, mas sem oferecer uma recompensa luxuosa
  • O GPT-4.5 consegue processar pensamentos complexos e sutis muito rapidamente

    • É muito superior a outras IAs
  • O GPT-4.5 não segue por direções estranhas e se mantém ancorado na realidade

    • Responde bem a preferências de tom e entende bem nuances
  • No longo prazo, pode ser difícil monetizar a infraestrutura

    • Na API para programação, Claude 3.5/3.7 provavelmente será mais usado
    • Na API não voltada a programação, Gemini 2.0 Flash é mais barato e tem desempenho melhor
    • Em apps por assinatura, o ChatGPT ainda é o melhor, mas o Grok está competindo
  • O GPT-4.5 é um pouco melhor em "escrita criativa"

    • A Anthropic lançou um novo modelo para resolver problemas mais práticos
  • Parece que estamos chegando ao limite da tecnologia

  • Há quem ache que duas frases não são contraditórias

    • Mesmo ampliando o tamanho do modelo, não houve melhoria clara de capacidade
    • O salto do GPT-4o para o GPT-4.5 torna o modelo excelente
  • Há dúvida se alguém realmente percebe os últimos pontos percentuais dos benchmarks

    • Pode ser um erro assumir que os benchmarks são 100% precisos
  • Todos os modelos GPT4o no Azure devem ser descontinuados em maio

    • Estou pensando se devo migrar para a Anthropic
    • Preciso de informações sobre o timing de lançamento do novo modelo "o"