1 pontos por GN⁺ 2024-05-02 | 1 comentários | Compartilhar no WhatsApp

Treinamento de modelos de linguagem de grande escala mais eficientes com predição de múltiplos tokens

  • Modelos de linguagem de grande porte, como GPT e Llama, são treinados por meio da perda de predição do próximo token
  • Neste estudo, propõe-se que treinar um modelo de linguagem para prever vários tokens futuros de uma vez aumenta a eficiência de amostragem
  • Especificamente, o estudo solicita que o modelo preveja os próximos n tokens usando n cabeças de saída independentes operando em um tronco de modelo compartilhado em cada posição do corpus de treinamento
  • Ao tratar a predição de múltiplos tokens como uma tarefa auxiliar de treinamento, foi medida melhora no desempenho em tarefas downstream para modelos de código e de linguagem natural, sem overhead no tempo de treinamento

Mais eficaz em modelos maiores e ainda atrativo em treinamento de múltiplas épocas

  • Este método é ainda mais útil quanto maior é o modelo e mantém sua atratividade também durante o treinamento em várias épocas
  • A vantagem é mais evidente em benchmarks de geração, como programação, e o modelo apresenta desempenho consistentemente superior à linha de base forte em alguns pontos percentuais
  • O modelo de 13B parâmetros resolve 12% a mais de problemas no HumanEval e 17% a mais no MBPP

Favorável ao desenvolvimento de heads de indução e à capacidade de inferência algorítmica

  • Em experimentos com tarefas algorítmicas pequenas, observa-se que a predição de múltiplos tokens favorece o desenvolvimento de heads de indução e a capacidade de inferência algorítmica
  • Como benefício adicional, o modelo treinado com predição de 4 tokens apresenta inferência até 3x mais rápida mesmo com batch size grande

Opinião do GN⁺

  • É uma pesquisa interessante que propõe um novo método de treinamento para melhorar a eficiência dos modelos de linguagem. Em especial, o fato de o ganho de desempenho ser mais claro em modelos de grande porte é um ponto notável

  • Seria positivo ter experimentos adicionais sobre como a predição de múltiplos tokens impacta o aprendizado de dependências de longo alcance. Por exemplo, vale a pena investigar também como o desempenho muda em tarefas de dependência de longa distância, como resolução de correferência entre frases

  • Embora o ganho tenha sido grande em tarefas de geração de domínios específicos, como programação e resolução de problemas matemáticos, é curioso saber qual o efeito em tarefas gerais de compreensão de linguagem natural e QA, por exemplo. Seria bom complementar com resultados em benchmarks diversos

  • A melhora da velocidade de inferência pode se tornar uma grande vantagem prática. Em especial, parece favorável para uso em chatbots ou sistemas de perguntas e respostas que exigem atendimento em tempo real

  • Em um momento em que modelos baseados em RLHF, como Constitutional AI da Anthropic e InstructGPT da OpenAI, estão em destaque, este estudo se mostra relevante por apresentar uma via para elevar o desempenho de modelos de linguagem apenas com aprendizado supervisionado. É claro que questões como alinhamento ético de valores ainda permanecem como desafios não resolvidos, mas do ponto de vista da eficiência de treinamento essa abordagem parece suficientemente competitiva

1 comentários

 
GN⁺ 2024-05-02
Comentários do Hacker News

Resumo:

  • Em LLMs, termos como dados, pré-treinamento, treinamento, inferência, mixture-of-experts e RAG costumam ser usados em diferentes contextos, e uma explicação clara dessa contextualização é necessária
  • A self-speculative decoding (decodificação autoespeculativa) mantém as previsões até o ponto de concordância ao reinjetar a sequência de rótulos prevista de volta na rede, o que pode aumentar a velocidade sem perda de desempenho
  • Os LLMs não consideram a distribuição de probabilidade de todas as combinações de tokens até o número atual de tokens de saída; se isso fosse levado em conta, o desempenho provavelmente melhoraria
  • Uma linha interessante de pesquisa poderia ser ajustar a função de perda de entropia cruzada do LLM para considerar apenas o n-ésimo token futuro nos dados de treinamento e analisar o desempenho em função de n
  • Fica a curiosidade sobre se existe uma forma de aproveitar o estado dos tokens gerados pelo LLM para a resposta seguinte
  • Pergunta-se se treinar o LLM para prever um vetor que codifique o significado da frase inteira poderia funcionar
  • A explicação da Seção 5.2 do paper é um pouco insuficiente, especialmente por não esclarecer bem por que se descarta H(Y|X)
  • Pode ser interessante considerar fazer o LLM produzir um modelo, como uma PixelCNN menor, para os próximos N tokens, para modelar a probabilidade condicional dos tokens futuros
  • Fico curioso se prever não apenas os próximos n tokens, mas também tokens mais distantes como 128, 512, 2048, ajudaria o modelo a aprender estruturas discursivas de longo alcance
  • Levanta-se a dúvida de como resolver possíveis interferências entre previsões ao prever vários tokens