Review do GPT-4.5 por Andrej Karpathy

xguru · 2025-02-28T10:00:02+09:00

Hoje a OpenAI lançou o GPT-4.5 O motivo de ter esperado cerca de 2 anos desde o lançamento do GPT-4 é que este release oferece a oportunidade de medir quantitativamente os ganhos que se obtém ao treinar um modelo simplesmente maior O ".5" de cada versão significa aproximadamente 10 vezes mais computação de pré-treinamento Processo de evolução dos modelos GPT GPT-1 → quase não conseguia gerar frases com sentido GPT-2 → nível de brinquedo desajeitado GPT-2.5 → na prática foi pulado e a transição foi direto para o GPT-3 GPT-3 → mostrou avanços interessantes GPT-3.5 → evoluiu a ponto de ser lançado como produto real e desencadeou o boom do ChatGPT GPT-4 → melhorou mais, mas era difícil encontrar um ponto claro de "uau" Em especial, comparando GPT-4 vs GPT-3.5: a escolha de palavras é mais criativa e entende melhor as nuances do prompt analogias são um pouco mais adequadas e o senso de humor melhora um pouco a compreensão melhora até em áreas de conhecimento raras, e a frequência de alucinações cai um pouco no geral, parecia que tudo tinha melhorado 20% foi uma melhora como a água subindo e fazendo todos os barcos flutuarem Impressões dos testes com o GPT-4.5 O GPT-4.5 passou por 10 vezes mais pré-treinamento do que o GPT-4 E, depois de testar, o mesmo padrão daqueles 20% se repetiu Tudo ficou um pouco melhor mas não há um ponto de inovação claramente identificável ainda assim, isso se torna um indicador interessante e importante para medir a inclinação da direção geral de melhoria dos modelos O GPT-4.5 ainda não é um modelo de "raciocínio" Ao GPT-4.5 foram aplicados apenas pré-treinamento, ajuste supervisionado (SFT) e RLHF Portanto, ele não melhora em problemas que exigem raciocínio lógico, como matemática e programação Nessas áreas, são necessários aprendizado por reforço (RL) e treinamento de pensamento sistemático, e no momento o modelo OpenAI o1 apresenta o melhor desempenho Provavelmente a OpenAI tem grande chance de, com base no GPT-4.5, aplicar aprendizado por reforço para evoluí-lo para um modelo que "pensa" Com isso, tentará melhorar as capacidades em matemática, lógica e programação Ponto forte do GPT-4.5: EQ Houve melhora em tarefas em que, mais do que raciocínio lógico, conhecimento de mundo, criatividade, analogia, senso de humor e inteligência emocional (EQ) são importantes Então ele pretende fazer um experimento interativo: "votação comparando GPT-4 vs GPT-4.5" Selecionou prompts para avaliar 5 tipos de senso de humor Para cada prompt, comparar as respostas do GPT-4 e do GPT-4.5 O experimento será feito usando no X (Twitter) imagens (prompts e respostas) + recurso de enquete Depois de 8 horas, ele pretende revelar qual resposta era de qual modelo

(x.com)

3 pontos por xguru 2025-02-28 | Ainda não há comentários. | Compartilhar no WhatsApp

Hoje a OpenAI lançou o GPT-4.5
O motivo de ter esperado cerca de 2 anos desde o lançamento do GPT-4 é que este release oferece a oportunidade de medir quantitativamente os ganhos que se obtém ao treinar um modelo simplesmente maior
- O ".5" de cada versão significa aproximadamente 10 vezes mais computação de pré-treinamento
Processo de evolução dos modelos GPT
- GPT-1 → quase não conseguia gerar frases com sentido
- GPT-2 → nível de brinquedo desajeitado
- GPT-2.5 → na prática foi pulado e a transição foi direto para o GPT-3
- GPT-3 → mostrou avanços interessantes
- GPT-3.5 → evoluiu a ponto de ser lançado como produto real e desencadeou o boom do ChatGPT
- GPT-4 → melhorou mais, mas era difícil encontrar um ponto claro de "uau"
Em especial, comparando GPT-4 vs GPT-3.5:
- a escolha de palavras é mais criativa e entende melhor as nuances do prompt
- analogias são um pouco mais adequadas e o senso de humor melhora um pouco
- a compreensão melhora até em áreas de conhecimento raras, e a frequência de alucinações cai um pouco
- no geral, parecia que tudo tinha melhorado 20%
- foi uma melhora como a água subindo e fazendo todos os barcos flutuarem

Impressões dos testes com o GPT-4.5

O GPT-4.5 passou por 10 vezes mais pré-treinamento do que o GPT-4
E, depois de testar, o mesmo padrão daqueles 20% se repetiu
Tudo ficou um pouco melhor
- mas não há um ponto de inovação claramente identificável
- ainda assim, isso se torna um indicador interessante e importante para medir a inclinação da direção geral de melhoria dos modelos

O GPT-4.5 ainda não é um modelo de "raciocínio"

Ao GPT-4.5 foram aplicados apenas pré-treinamento, ajuste supervisionado (SFT) e RLHF
Portanto, ele não melhora em problemas que exigem raciocínio lógico, como matemática e programação
Nessas áreas, são necessários aprendizado por reforço (RL) e treinamento de pensamento sistemático, e no momento o modelo OpenAI o1 apresenta o melhor desempenho
Provavelmente a OpenAI tem grande chance de, com base no GPT-4.5, aplicar aprendizado por reforço para evoluí-lo para um modelo que "pensa"
Com isso, tentará melhorar as capacidades em matemática, lógica e programação

Ponto forte do GPT-4.5: EQ

Houve melhora em tarefas em que, mais do que raciocínio lógico, conhecimento de mundo, criatividade, analogia, senso de humor e inteligência emocional (EQ) são importantes

Então ele pretende fazer um experimento interativo: "votação comparando GPT-4 vs GPT-4.5"

Selecionou prompts para avaliar 5 tipos de senso de humor
Para cada prompt, comparar as respostas do GPT-4 e do GPT-4.5
O experimento será feito usando no X (Twitter) imagens (prompts e respostas) + recurso de enquete
Depois de 8 horas, ele pretende revelar qual resposta era de qual modelo