GPT-4.5: “Não é um modelo de fronteira”?

(interconnects.ai)

2 pontos por GN⁺ 2025-03-03 | 2 comentários | Compartilhar no WhatsApp

Junto com o lançamento do GPT-4.5, a OpenAI divulgou primeiro o system card do modelo
No system card inicial, havia a frase "GPT-4.5 is not a frontier model" (GPT-4.5 não é um modelo de fronteira)
- Depois, essa frase foi removida do post oficial no blog e do system card atualizado
Alguém na OpenAI aparentemente sentiu a necessidade de incluir essa frase. Mas então, "por que a OpenAI lançou isso?"
A principal contradição da afirmação de que ele não é um modelo de fronteira é que o GPT-4.5 é o maior modelo que o público em geral pode testar
- Mesmo ampliando para um modelo desse porte, não ocorre um salto claro nas capacidades que medimos
- A transição de GPT-3.5 → GPT-4 foi de okay para good
- A mudança de GPT-4o → GPT-4.5 vai de great para really great
Como é muito difícil perceber as diferenças entre os modelos mais recentes, quem investe em IA e espera avanços pode acabar achando que eles são melhores do que realmente são
Este é um momento em que os limites econômicos do scaling ficam claros, sem o grande salto de desempenho que se esperava
- A Anthropic também enfrenta um problema parecido, e foi confirmado que, após o Claude 3.7, ela vai treinar modelos muito maiores
O GPT-4.5 é um modelo que mostra progresso incremental, diferente dos saltos revolucionários anteriores
- Isso mostra que, na pesquisa em IA, a simples expansão do pré-treinamento já não produz mais o mesmo nível de inovação de antes
- Internamente, a OpenAI usa o GPT-4.5 há bastante tempo e é bem provável que o tenha usado para treinar outros modelos com base no GPT-4.5 (a julgar pelo cutdate em 2023)

O que o GPT-4.5 tem de bom

(Estas são algumas estimativas sobre o número de parâmetros do GPT-4.5 e do GPT-4o, e não se baseiam em informações vazadas, então a margem de erro é grande)
O GPT-4.5 é um modelo muito grande, e pode ser maior que o Grok 3
- O GPT-4 era um modelo Mixture-of-Experts (MoE) com mais de 1 trilhão (1T) de parâmetros totais, e estima-se que tivesse cerca de 200B de parâmetros ativos
- Há rumores de que modelos como GPT-4o ou Gemini Pro reduziram os parâmetros ativos para algo em torno de 60B
- Ou seja, os modelos recentes vêm evoluindo reduzindo os parâmetros ativos e otimizando a infraestrutura para melhorar velocidade e custo
Estima-se que o GPT-4.5 exija cerca de 10 vezes mais computação (10X compute) que o GPT-4
- 5 vezes mais parâmetros + 2 vezes mais dados = aumento de 10 vezes na computação
- Os parâmetros totais podem chegar a 5–7 trilhões (5T–7T), com cerca de 600B de parâmetros ativos
Ainda assim, mesmo com esse nível de expansão, a melhora de desempenho é difícil de perceber na prática.
A partir daqui, a situação fica bem estranha. A OpenAI destacou 2 pontos nesta apresentação
- Redução de alucinações: o modelo diminui a frequência com que gera informações incorretas
- Melhora da inteligência emocional: consegue entender e expressar melhor contexto e emoções
- Mas esses 2 pontos são características difíceis de avaliar objetivamente
Desempenho em benchmarks (com base em dados fornecidos pela OpenAI)
- SimpleQA: o GPT-4.5 mostrou grande melhora na avaliação de conhecimento de mundo de modelos de IA
- PersonQA: também teve o melhor desempenho em perguntas sobre pessoas específicas
- GPQA (Google-proof QA): obteve bons resultados também em um indicador que mede raciocínio lógico sem busca de informação
Logo após o lançamento, surgiram opiniões entre especialistas em IA de que o GPT-4.5 é mais agradável de usar e escreve melhor
- Porém, em avaliações de código e desempenho técnico, ele foi considerado mediano em comparação com modelos concorrentes como Claude 3.7 e R1
Comparação do estilo de escrita (resultado de uma enquete no X/Twitter feita por Karpathy)
- GPT-4.5 vs. GPT-4o-latest: muitos usuários preferiram o estilo de escrita do GPT-4o-latest
- Por quê? É bem possível que o GPT-4o-latest seja um modelo destilado (distilled) a partir desse novo modelo, antes chamado de Orion1, e como ele é muito menor, a velocidade de iteração é incomparavelmente melhor, o que pode favorecer mais o pós-treinamento
Tudo isso é o preço que a OpenAI precisa pagar para voltar ao 1º lugar no ranking do ChatBotArena
- Espera-se que o GPT-4.5 consiga isso, mas o resultado ainda não está definido
Pela experiência prévia do autor usando o modelo, a lentidão incomodou no começo, mas a confiabilidade é alta o bastante para valer a pena continuar usando
- Porém, não há necessidade de escolher o GPT-4.5 pagando mais por isso, e o o1 Pro da OpenAI e outros serviços pagos oferecem custo-benefício melhor

Por que o GPT-4.5 é caro

Quando o GPT-4 foi lançado, o preço também era bastante alto, e na prática era parecido com o do GPT-4.5
O preço inicial do GPT-4.5 é o seguinte:
- Entrada (Input): $75.00 / 1M tokens
- Entrada em cache (Cached Input): $37.50 / 1M tokens
- Saída (Output): $150.00 / 1M tokens
- Ou seja, ele começou com um preço muito mais alto que o dos modelos anteriores
Os modelos anteriores da OpenAI também começaram caros, mas há casos em que os preços foram reduzidos significativamente de forma gradual
- GPT-4 (lançado em março de 2023)
  - No começo, custava $30 por 1 milhão na entrada e $60 por 1 milhão na saída
  - A versão com contexto de 32K era mais cara, com $60 na entrada e $120 na saída
- GPT-4 Turbo (lançado em novembro de 2023)
  - Ficou bem mais barato, com preço reduzido para $10 na entrada e $30 na saída
- GPT-4o (lançado em maio de 2024)
  - O preço caiu ainda mais, para $2.5 na entrada e $10 na saída, ficando mais de 10 vezes mais barato que o GPT-4
- Assim, a OpenAI mostra um padrão de reduzir bastante os preços sempre que lança novos modelos
O motivo de o GPT-4.5 estar caro agora parece ser que ele está no início do lançamento e a margem foi definida alta
- A OpenAI mencionou que não garante que o modelo continuará na API e que decidirá isso observando a reação dos usuários
Muitos especialistas esperam que, com o lançamento da GPU de próxima geração da Nvidia, a Blackwell, o custo caia, já que será possível operar modelos maiores com mais eficiência
Assim como os preços caíram de GPT-4 para GPT-4 Turbo e GPT-4o, há grande chance de que o GPT-4.5 também fique mais barato no futuro, talvez com uma versão como GPT-4.5 Turbo

O futuro do scaling

O scaling de modelos de linguagem ainda não morreu
- Mas olhar de volta para por que esse anúncio pareceu tão estranho é muito importante para manter a lucidez diante da velocidade do avanço da IA
- Entramos em uma era em que existem trade-offs entre diferentes tipos de scaling
Em resumo curto, "o GPT-4.5 é estranho, mas está à frente do seu tempo"
- O GPT-4.5 não é só uma expansão simples do modelo, mas um sinal de que novas formas de scaling são necessárias
- Isso significa que o avanço da IA não pode depender apenas de aumentar o tamanho do modelo (Scaling Up), mas precisa seguir outros caminhos — embora já soubéssemos disso pelo rápido avanço dos modelos de raciocínio
- O verdadeiro impacto do GPT-4.5 aparece quando ele se integra ao rápido avanço de várias linhas
O artigo do R1 da DeepSeek e pesquisas posteriores em RL chegaram à conclusão de que quanto maior o modelo, mais eficaz tende a ser o treinamento com RL
- É bem provável que o modelo o4 da OpenAI também seja treinado usando um modelo de raciocínio baseado no GPT-4.5
- Os modelos atuais da OpenAI não seriam tão bons sem o GPT-4.5
Em menos de 1 ano, a maioria dos modelos pode evoluir para a escala do GPT-4.5, com velocidade muito maior
- Melhorias mais “equilibradas” ajudarão a tornar mais aplicações robustas
- A OpenAI e pesquisadores de outros laboratórios de IA estão tentando escalar modelos para além dos limites da infraestrutura atual
Se um frontier lab não ultrapassa os limites em todas as direções de scaling, então não está assumindo risco suficiente
- Não é necessário lançar publicamente o modelo, mas vale especular por que exatamente a OpenAI quis fazer isso
- Como há grande chance de o GPT-4.5 já estar sendo usado em outros sistemas internos e em breve também em outros produtos externos, lançar esse modelo não é um desvio, mas um processo natural rumo à próxima etapa
O GPT-4.5 é um modelo de fronteira, mas seu lançamento não é empolgante
- O avanço da IA não é gratuito e exige muito esforço
- O importante não é o GPT-4.5 em si, mas o verdadeiro valor dele aparecerá quando esse modelo se combinar com outras tecnologias

2 comentários

doolayer 2025-03-03

Como muitos benchmarks já estão saturados, parece natural a tendência de focar em usabilidade e alucinações.

GN⁺ 2025-03-03

Opiniões no Hacker News

O GPT-4.5 também tem corte de conhecimento em outubro de 2023
- É possível que o pré-treinamento deste modelo tenha sido concluído há pelo menos 1 ano
- A OpenAI pode ter se concentrado em outros projetos, como Q-star/strawberry
Os modelos de raciocínio da OpenAI podem não ser tão poderosos quanto o esperado
- Estão surgindo modelos fortes sem raciocínio, como Gemini 2.0 Flash, Grok 3 e Sonnet 3.7
- A OpenAI pode ter sentido a necessidade de lançar algo ao menos na aparência
O preço é um tanto misterioso
- Pode refletir um modelo antigo, sem os truques mais recentes de eficiência
- O GPT-4.5 pode ser uma forma de a OpenAI descobrir quanto as pessoas estão dispostas a pagar
O salto do GPT-4o para o 4.5 não é um grande salto
- Foi precificado como um artigo de luxo, mas sem oferecer uma recompensa luxuosa
O GPT-4.5 consegue processar pensamentos complexos e sutis muito rapidamente
- É muito superior a outras IAs
O GPT-4.5 não segue por direções estranhas e se mantém ancorado na realidade
- Responde bem a preferências de tom e entende bem nuances
No longo prazo, pode ser difícil monetizar a infraestrutura
- Na API para programação, Claude 3.5/3.7 provavelmente será mais usado
- Na API não voltada a programação, Gemini 2.0 Flash é mais barato e tem desempenho melhor
- Em apps por assinatura, o ChatGPT ainda é o melhor, mas o Grok está competindo
O GPT-4.5 é um pouco melhor em "escrita criativa"
- A Anthropic lançou um novo modelo para resolver problemas mais práticos
Parece que estamos chegando ao limite da tecnologia
Há quem ache que duas frases não são contraditórias
- Mesmo ampliando o tamanho do modelo, não houve melhoria clara de capacidade
- O salto do GPT-4o para o GPT-4.5 torna o modelo excelente
Há dúvida se alguém realmente percebe os últimos pontos percentuais dos benchmarks
- Pode ser um erro assumir que os benchmarks são 100% precisos
Todos os modelos GPT4o no Azure devem ser descontinuados em maio
- Estou pensando se devo migrar para a Anthropic
- Preciso de informações sobre o timing de lançamento do novo modelo "o"