3 pontos por GN⁺ 2023-09-24 | 1 comentários | Compartilhar no WhatsApp
  • Artigo sobre as dificuldades de implantar grandes modelos de linguagem (Large Language Models, LLMs): devido ao tamanho e às exigências computacionais, eles são de difícil acesso para muitas equipes de pesquisa, especialmente para aplicações que exigem desempenho com baixa latência
  • Para superar esses desafios, modelos menores e especializados treinados com fine-tuning ou destilação são frequentemente implantados. No entanto, esses métodos também têm suas próprias limitações, como a necessidade de rótulos gerados por humanos ou de grandes volumes de dados não rotulados
  • Os autores apresentam um novo mecanismo chamado "destilação passo a passo", que permite treinar modelos menores e específicos para tarefas com muito menos dados de treinamento do que os necessários em abordagens padrão de fine-tuning ou destilação
  • Usando apenas 80% dos exemplos de conjuntos de dados de benchmark, esse mecanismo faz com que um modelo T5 de 770M parâmetros supere um modelo PaLM de 540B estimulado com few-shot prompting, mostrando uma redução de tamanho de modelo de mais de 700 vezes com muito menos dados de treinamento do que os exigidos por abordagens padrão
  • A ideia central da destilação passo a passo é extrair dos LLMs raciocínios em linguagem natural ricos em informação e usá-los para treinar modelos menores de forma mais eficiente
  • Esse processo é composto por duas etapas principais: primeiro, extrair raciocínios dos LLMs usando prompts CoT em few-shot; depois, estruturar o processo de treinamento como um problema multitarefa para incorporar esses raciocínios ao treinamento do modelo menor
  • Os autores realizaram experimentos em quatro conjuntos de dados de benchmark, abrangendo três tarefas diferentes de NLP, e constataram que o método de destilação passo a passo alcança melhor desempenho do que o fine-tuning padrão usando muito menos dados de treinamento
  • O mecanismo de destilação passo a passo está disponível em preview privado no Vertex AI, plataforma de nuvem do Google
  • Esta pesquisa foi conduzida por Cheng-Yu Hsieh, Chun-Liang Li, Chih-Kuan Yeh, Hootan Nakhost, Yasuhisa Fujii, Alexander Ratner, Ranjay Krishna, Chen-Yu Lee e Tomas Pfister.

1 comentários

 
GN⁺ 2023-09-24
Comentários do Hacker News
  • Espera-se que modelos especialistas menores dominem a maioria das aplicações devido ao equilíbrio ideal entre tamanho e usabilidade.
  • Modelos destilados usando T5 sugerem que a arquitetura encoder-decoder ainda pode ser relevante.
  • Como a abordagem não é excessivamente complexa, isso sugere que ainda há muito a explorar no campo dos Large Language Models (LLMs).
  • O futuro dos LLMs pode incluir uma mistura de modelos especialistas treinados nesse estilo.
  • O nível de atividade e progresso nas áreas de LLM, Machine Learning (ML) e Artificial Intelligence (AI) é impressionante.
  • Quando hardware como o da Nvidia é caro, esse tipo de otimização tem valor.
  • Os modelos mais eficazes provavelmente serão multimodais e treinados com um currículo central cuidadosamente personalizado.
  • Há uma pergunta sobre por que os dados de treinamento dos LLMs seriam menores do que os de modelos destilados e específicos para tarefas.
  • Há especulações sobre se Reinforcement Learning from Human Feedback (RLHF) será necessário para modelos menores terem desempenho tão bom quanto os LLMs de ponta.
  • Não está claro se grande parte da capacidade dos LLMs maiores fica sem uso ou se modelos de linguagem menores estão simplesmente imitando tarefas de raciocínio.
  • O Mac Studio, com suporte a até 144GB de memória GPU disponível, pode ser usado no espaço de serviços de LLM.
  • Há uma sugestão de que o Facebook poderia treinar um LLM com todo o histórico de conversas dos usuários.