- Artigo sobre um novo método para melhorar a memória de longo prazo de grandes modelos de linguagem (LLMs) usados em sistemas de conversação abertos
- Um problema importante dos sistemas de conversação abertos é esquecer informações importantes em conversas longas
- As soluções existentes costumam treinar um recuperador ou resumidor específico para extrair informações centrais da conversa, mas isso consome muito tempo e depende fortemente da qualidade dos dados rotulados
- O método proposto busca mitigar esse problema gerando resumos ou memórias recursivamente com o uso de LLMs
- Nesse método, primeiro os LLMs passam a lembrar pequenos contextos de conversa e, em seguida, geram novas memórias de forma recursiva usando memórias anteriores e contextos posteriores
- Com a ajuda da memória mais recente, o LLM pode gerar respostas muito mais consistentes
- O método foi avaliado com ChatGPT e text-davinci-003 e, em experimentos com conjuntos de dados públicos amplamente usados, mostrou que pode gerar respostas mais consistentes em conversas de contexto longo
- Esse método é uma solução potencial para permitir que LLMs modelem contextos extremamente longos
- O código e os scripts desse método serão disponibilizados futuramente
- Esta pesquisa recebeu apoio da Simons Foundation, de instituições-membro e de todos os contribuidores
1 comentários
Comentários do Hacker News