- Artigo sobre as dificuldades de implantar grandes modelos de linguagem (Large Language Models, LLMs): devido ao tamanho e às exigências computacionais, eles são de difícil acesso para muitas equipes de pesquisa, especialmente para aplicações que exigem desempenho com baixa latência
- Para superar esses desafios, modelos menores e especializados treinados com fine-tuning ou destilação são frequentemente implantados. No entanto, esses métodos também têm suas próprias limitações, como a necessidade de rótulos gerados por humanos ou de grandes volumes de dados não rotulados
- Os autores apresentam um novo mecanismo chamado "destilação passo a passo", que permite treinar modelos menores e específicos para tarefas com muito menos dados de treinamento do que os necessários em abordagens padrão de fine-tuning ou destilação
- Usando apenas 80% dos exemplos de conjuntos de dados de benchmark, esse mecanismo faz com que um modelo T5 de 770M parâmetros supere um modelo PaLM de 540B estimulado com few-shot prompting, mostrando uma redução de tamanho de modelo de mais de 700 vezes com muito menos dados de treinamento do que os exigidos por abordagens padrão
- A ideia central da destilação passo a passo é extrair dos LLMs raciocínios em linguagem natural ricos em informação e usá-los para treinar modelos menores de forma mais eficiente
- Esse processo é composto por duas etapas principais: primeiro, extrair raciocínios dos LLMs usando prompts CoT em few-shot; depois, estruturar o processo de treinamento como um problema multitarefa para incorporar esses raciocínios ao treinamento do modelo menor
- Os autores realizaram experimentos em quatro conjuntos de dados de benchmark, abrangendo três tarefas diferentes de NLP, e constataram que o método de destilação passo a passo alcança melhor desempenho do que o fine-tuning padrão usando muito menos dados de treinamento
- O mecanismo de destilação passo a passo está disponível em preview privado no Vertex AI, plataforma de nuvem do Google
- Esta pesquisa foi conduzida por Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee e Tomas Pfister.
1 comentários
Comentários do Hacker News