O GPT-4 está piorando com o tempo

xguru · 2023-07-20T11:06:02+09:00

Muita gente já falou sobre isso, mas até agora tudo ficava em relatos fragmentados Um artigo publicado recentemente comparou de forma objetiva as versões de junho e de março do GPT-4 usando 500 problemas Em março, ele respondeu corretamente 488 deles, mas em junho acertou apenas 12 Em apenas 3 meses, a taxa de acerto caiu de 97,6% para 2,4% Mas a situação piora ainda mais Fizeram testes de raciocínio usando a técnica de Chain-of-Thought Ao dar a instrução "17077 é um número primo? Think step by step.", o GPT-4 nem gerou as etapas intermediárias e respondeu "não" A geração de código também piorou Foi montado um conjunto de dados com 50 problemas fáceis do LeetCode para executar os testes A versão de março teve 52% de sucesso, mas a versão de junho acertou só 10% Por que isso está acontecendo? Presume-se que a OpenAI continue fazendo mudanças, mas não sabemos como o sistema funciona nem como eles fazem as avaliações Segundo rumores, eles estariam agrupando vários modelos GPT-4 menores e especializados para se comportarem como um modelo grande, mas com custo de execução menor Será que tornar tudo mais barato e mais rápido pode ser a causa dessa perda de qualidade? Isso é um sinal de alerta para qualquer pessoa que esteja construindo aplicações dependentes do GPT-4 Não é aceitável que o comportamento de um LLM mude com o passar do tempo Qualquer pessoa pode reproduzir esse experimento no Google Colab

(twitter.com/svpino)

17 pontos por xguru 2023-07-20 | 6 comentários | Compartilhar no WhatsApp

Muita gente já falou sobre isso, mas até agora tudo ficava em relatos fragmentados
Um artigo publicado recentemente comparou de forma objetiva as versões de junho e de março do GPT-4 usando 500 problemas
Em março, ele respondeu corretamente 488 deles, mas em junho acertou apenas 12
- Em apenas 3 meses, a taxa de acerto caiu de 97,6% para 2,4%
Mas a situação piora ainda mais
Fizeram testes de raciocínio usando a técnica de Chain-of-Thought
- Ao dar a instrução "17077 é um número primo? Think step by step.", o GPT-4 nem gerou as etapas intermediárias e respondeu "não"
A geração de código também piorou
- Foi montado um conjunto de dados com 50 problemas fáceis do LeetCode para executar os testes
- A versão de março teve 52% de sucesso, mas a versão de junho acertou só 10%
Por que isso está acontecendo?
- Presume-se que a OpenAI continue fazendo mudanças, mas não sabemos como o sistema funciona nem como eles fazem as avaliações
- Segundo rumores, eles estariam agrupando vários modelos GPT-4 menores e especializados para se comportarem como um modelo grande, mas com custo de execução menor
- Será que tornar tudo mais barato e mais rápido pode ser a causa dessa perda de qualidade?
Isso é um sinal de alerta para qualquer pessoa que esteja construindo aplicações dependentes do GPT-4
- Não é aceitável que o comportamento de um LLM mude com o passar do tempo
Qualquer pessoa pode reproduzir esse experimento no Google Colab

6 comentários

secret3056 2023-07-20

Cancelei a assinatura. Deu para sentir na pele as pioras.

delimoni 2023-07-20

Na comunidade nacional de usuários do ChatGPT, também houve vários relatos assim de forma contínua, então parece que era verdade.

appcaster 2023-07-20

Uso o GPT todo mês desde que passou a ser pago, e concordo com isso.
Além disso, mesmo sendo usuário pago, ainda estou muito insatisfeito com o limite de 25 perguntas a cada 3 horas na versão 4.

wedding 2023-07-21

Hoje, dizem que, ao adicionar o recurso de instruções personalizadas, o limite também foi ampliado para 50.

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

A qualidade do GPT-4 parece ter caído bastante ultimamente, ou sou só eu?

xguru 2023-07-20

O artigo em questão: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

O GPT-4 está piorando com o tempo

Leituras relacionadas

6 comentários