- Muita gente já falou sobre isso, mas até agora tudo ficava em relatos fragmentados
- Um artigo publicado recentemente comparou de forma objetiva as versões de junho e de março do GPT-4 usando 500 problemas
- Em março, ele respondeu corretamente 488 deles, mas em junho acertou apenas 12
- Em apenas 3 meses, a taxa de acerto caiu de 97,6% para 2,4%
- Mas a situação piora ainda mais
- Fizeram testes de raciocínio usando a técnica de Chain-of-Thought
- Ao dar a instrução "17077 é um número primo? Think step by step.", o GPT-4 nem gerou as etapas intermediárias e respondeu "não"
- A geração de código também piorou
- Foi montado um conjunto de dados com 50 problemas fáceis do LeetCode para executar os testes
- A versão de março teve 52% de sucesso, mas a versão de junho acertou só 10%
- Por que isso está acontecendo?
- Presume-se que a OpenAI continue fazendo mudanças, mas não sabemos como o sistema funciona nem como eles fazem as avaliações
- Segundo rumores, eles estariam agrupando vários modelos GPT-4 menores e especializados para se comportarem como um modelo grande, mas com custo de execução menor
- Será que tornar tudo mais barato e mais rápido pode ser a causa dessa perda de qualidade?
- Isso é um sinal de alerta para qualquer pessoa que esteja construindo aplicações dependentes do GPT-4
- Não é aceitável que o comportamento de um LLM mude com o passar do tempo
- Qualquer pessoa pode reproduzir esse experimento no Google Colab
6 comentários
Cancelei a assinatura. Deu para sentir na pele as pioras.
Na comunidade nacional de usuários do ChatGPT, também houve vários relatos assim de forma contínua, então parece que era verdade.
Uso o GPT todo mês desde que passou a ser pago, e concordo com isso.
Além disso, mesmo sendo usuário pago, ainda estou muito insatisfeito com o limite de 25 perguntas a cada 3 horas na versão 4.
Hoje, dizem que, ao adicionar o recurso de instruções personalizadas, o limite também foi ampliado para 50.
https://openai.com/blog/custom-instructions-for-chatgpt
A qualidade do GPT-4 parece ter caído bastante ultimamente, ou sou só eu?
O artigo em questão: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?