- Junto com o lançamento do GPT-4.5, a OpenAI divulgou primeiro o system card do modelo
- No system card inicial, havia a frase "GPT-4.5 is not a frontier model" (GPT-4.5 não é um modelo de fronteira)
- Depois, essa frase foi removida do post oficial no blog e do system card atualizado
- Alguém na OpenAI aparentemente sentiu a necessidade de incluir essa frase. Mas então, "por que a OpenAI lançou isso?"
- A principal contradição da afirmação de que ele não é um modelo de fronteira é que o GPT-4.5 é o maior modelo que o público em geral pode testar
- Mesmo ampliando para um modelo desse porte, não ocorre um salto claro nas capacidades que medimos
- A transição de GPT-3.5 → GPT-4 foi de okay para good
- A mudança de GPT-4o → GPT-4.5 vai de great para really great
- Como é muito difícil perceber as diferenças entre os modelos mais recentes, quem investe em IA e espera avanços pode acabar achando que eles são melhores do que realmente são
- Este é um momento em que os limites econômicos do scaling ficam claros, sem o grande salto de desempenho que se esperava
- A Anthropic também enfrenta um problema parecido, e foi confirmado que, após o Claude 3.7, ela vai treinar modelos muito maiores
- O GPT-4.5 é um modelo que mostra progresso incremental, diferente dos saltos revolucionários anteriores
- Isso mostra que, na pesquisa em IA, a simples expansão do pré-treinamento já não produz mais o mesmo nível de inovação de antes
- Internamente, a OpenAI usa o GPT-4.5 há bastante tempo e é bem provável que o tenha usado para treinar outros modelos com base no GPT-4.5 (a julgar pelo cutdate em 2023)
O que o GPT-4.5 tem de bom
- (Estas são algumas estimativas sobre o número de parâmetros do GPT-4.5 e do GPT-4o, e não se baseiam em informações vazadas, então a margem de erro é grande)
- O GPT-4.5 é um modelo muito grande, e pode ser maior que o Grok 3
- O GPT-4 era um modelo Mixture-of-Experts (MoE) com mais de 1 trilhão (1T) de parâmetros totais, e estima-se que tivesse cerca de 200B de parâmetros ativos
- Há rumores de que modelos como GPT-4o ou Gemini Pro reduziram os parâmetros ativos para algo em torno de 60B
- Ou seja, os modelos recentes vêm evoluindo reduzindo os parâmetros ativos e otimizando a infraestrutura para melhorar velocidade e custo
- Estima-se que o GPT-4.5 exija cerca de 10 vezes mais computação (10X compute) que o GPT-4
- 5 vezes mais parâmetros + 2 vezes mais dados = aumento de 10 vezes na computação
- Os parâmetros totais podem chegar a 5–7 trilhões (5T–7T), com cerca de 600B de parâmetros ativos
- Ainda assim, mesmo com esse nível de expansão, a melhora de desempenho é difícil de perceber na prática.
- A partir daqui, a situação fica bem estranha. A OpenAI destacou 2 pontos nesta apresentação
- Redução de alucinações: o modelo diminui a frequência com que gera informações incorretas
- Melhora da inteligência emocional: consegue entender e expressar melhor contexto e emoções
- Mas esses 2 pontos são características difíceis de avaliar objetivamente
- Desempenho em benchmarks (com base em dados fornecidos pela OpenAI)
- SimpleQA: o GPT-4.5 mostrou grande melhora na avaliação de conhecimento de mundo de modelos de IA
- PersonQA: também teve o melhor desempenho em perguntas sobre pessoas específicas
- GPQA (Google-proof QA): obteve bons resultados também em um indicador que mede raciocínio lógico sem busca de informação
- Logo após o lançamento, surgiram opiniões entre especialistas em IA de que o GPT-4.5 é mais agradável de usar e escreve melhor
- Porém, em avaliações de código e desempenho técnico, ele foi considerado mediano em comparação com modelos concorrentes como Claude 3.7 e R1
- Comparação do estilo de escrita (resultado de uma enquete no X/Twitter feita por Karpathy)
- GPT-4.5 vs. GPT-4o-latest: muitos usuários preferiram o estilo de escrita do GPT-4o-latest
- Por quê? É bem possível que o GPT-4o-latest seja um modelo destilado (distilled) a partir desse novo modelo, antes chamado de Orion1, e como ele é muito menor, a velocidade de iteração é incomparavelmente melhor, o que pode favorecer mais o pós-treinamento
- Tudo isso é o preço que a OpenAI precisa pagar para voltar ao 1º lugar no ranking do ChatBotArena
- Espera-se que o GPT-4.5 consiga isso, mas o resultado ainda não está definido
- Pela experiência prévia do autor usando o modelo, a lentidão incomodou no começo, mas a confiabilidade é alta o bastante para valer a pena continuar usando
- Porém, não há necessidade de escolher o GPT-4.5 pagando mais por isso, e o o1 Pro da OpenAI e outros serviços pagos oferecem custo-benefício melhor
Por que o GPT-4.5 é caro
- Quando o GPT-4 foi lançado, o preço também era bastante alto, e na prática era parecido com o do GPT-4.5
- O preço inicial do GPT-4.5 é o seguinte:
- Entrada (Input): $75.00 / 1M tokens
- Entrada em cache (Cached Input): $37.50 / 1M tokens
- Saída (Output): $150.00 / 1M tokens
- Ou seja, ele começou com um preço muito mais alto que o dos modelos anteriores
- Os modelos anteriores da OpenAI também começaram caros, mas há casos em que os preços foram reduzidos significativamente de forma gradual
- GPT-4 (lançado em março de 2023)
- No começo, custava $30 por 1 milhão na entrada e $60 por 1 milhão na saída
- A versão com contexto de 32K era mais cara, com $60 na entrada e $120 na saída
- GPT-4 Turbo (lançado em novembro de 2023)
- Ficou bem mais barato, com preço reduzido para $10 na entrada e $30 na saída
- GPT-4o (lançado em maio de 2024)
- O preço caiu ainda mais, para $2.5 na entrada e $10 na saída, ficando mais de 10 vezes mais barato que o GPT-4
- Assim, a OpenAI mostra um padrão de reduzir bastante os preços sempre que lança novos modelos
- O motivo de o GPT-4.5 estar caro agora parece ser que ele está no início do lançamento e a margem foi definida alta
- A OpenAI mencionou que não garante que o modelo continuará na API e que decidirá isso observando a reação dos usuários
- Muitos especialistas esperam que, com o lançamento da GPU de próxima geração da Nvidia, a Blackwell, o custo caia, já que será possível operar modelos maiores com mais eficiência
- Assim como os preços caíram de GPT-4 para GPT-4 Turbo e GPT-4o, há grande chance de que o GPT-4.5 também fique mais barato no futuro, talvez com uma versão como GPT-4.5 Turbo
O futuro do scaling
- O scaling de modelos de linguagem ainda não morreu
- Mas olhar de volta para por que esse anúncio pareceu tão estranho é muito importante para manter a lucidez diante da velocidade do avanço da IA
- Entramos em uma era em que existem trade-offs entre diferentes tipos de scaling
- Em resumo curto, "o GPT-4.5 é estranho, mas está à frente do seu tempo"
- O GPT-4.5 não é só uma expansão simples do modelo, mas um sinal de que novas formas de scaling são necessárias
- Isso significa que o avanço da IA não pode depender apenas de aumentar o tamanho do modelo (Scaling Up), mas precisa seguir outros caminhos — embora já soubéssemos disso pelo rápido avanço dos modelos de raciocínio
- O verdadeiro impacto do GPT-4.5 aparece quando ele se integra ao rápido avanço de várias linhas
- O artigo do R1 da DeepSeek e pesquisas posteriores em RL chegaram à conclusão de que quanto maior o modelo, mais eficaz tende a ser o treinamento com RL
- É bem provável que o modelo o4 da OpenAI também seja treinado usando um modelo de raciocínio baseado no GPT-4.5
- Os modelos atuais da OpenAI não seriam tão bons sem o GPT-4.5
- Em menos de 1 ano, a maioria dos modelos pode evoluir para a escala do GPT-4.5, com velocidade muito maior
- Melhorias mais “equilibradas” ajudarão a tornar mais aplicações robustas
- A OpenAI e pesquisadores de outros laboratórios de IA estão tentando escalar modelos para além dos limites da infraestrutura atual
- Se um frontier lab não ultrapassa os limites em todas as direções de scaling, então não está assumindo risco suficiente
- Não é necessário lançar publicamente o modelo, mas vale especular por que exatamente a OpenAI quis fazer isso
- Como há grande chance de o GPT-4.5 já estar sendo usado em outros sistemas internos e em breve também em outros produtos externos, lançar esse modelo não é um desvio, mas um processo natural rumo à próxima etapa
- O GPT-4.5 é um modelo de fronteira, mas seu lançamento não é empolgante
- O avanço da IA não é gratuito e exige muito esforço
- O importante não é o GPT-4.5 em si, mas o verdadeiro valor dele aparecerá quando esse modelo se combinar com outras tecnologias
2 comentários
Como muitos benchmarks já estão saturados, parece natural a tendência de focar em usabilidade e alucinações.
Opiniões no Hacker News
O GPT-4.5 também tem corte de conhecimento em outubro de 2023
Os modelos de raciocínio da OpenAI podem não ser tão poderosos quanto o esperado
O preço é um tanto misterioso
O salto do GPT-4o para o 4.5 não é um grande salto
O GPT-4.5 consegue processar pensamentos complexos e sutis muito rapidamente
O GPT-4.5 não segue por direções estranhas e se mantém ancorado na realidade
No longo prazo, pode ser difícil monetizar a infraestrutura
O GPT-4.5 é um pouco melhor em "escrita criativa"
Parece que estamos chegando ao limite da tecnologia
Há quem ache que duas frases não são contraditórias
Há dúvida se alguém realmente percebe os últimos pontos percentuais dos benchmarks
Todos os modelos GPT4o no Azure devem ser descontinuados em maio