Large Language Models com melhor desempenho e maior velocidade por meio de predição de múltiplos tokens
(arxiv.org)Treinamento de modelos de linguagem de grande escala mais eficientes com predição de múltiplos tokens
- Modelos de linguagem de grande porte, como GPT e Llama, são treinados por meio da perda de predição do próximo token
- Neste estudo, propõe-se que treinar um modelo de linguagem para prever vários tokens futuros de uma vez aumenta a eficiência de amostragem
- Especificamente, o estudo solicita que o modelo preveja os próximos n tokens usando n cabeças de saída independentes operando em um tronco de modelo compartilhado em cada posição do corpus de treinamento
- Ao tratar a predição de múltiplos tokens como uma tarefa auxiliar de treinamento, foi medida melhora no desempenho em tarefas downstream para modelos de código e de linguagem natural, sem overhead no tempo de treinamento
Mais eficaz em modelos maiores e ainda atrativo em treinamento de múltiplas épocas
- Este método é ainda mais útil quanto maior é o modelo e mantém sua atratividade também durante o treinamento em várias épocas
- A vantagem é mais evidente em benchmarks de geração, como programação, e o modelo apresenta desempenho consistentemente superior à linha de base forte em alguns pontos percentuais
- O modelo de 13B parâmetros resolve 12% a mais de problemas no HumanEval e 17% a mais no MBPP
Favorável ao desenvolvimento de heads de indução e à capacidade de inferência algorítmica
- Em experimentos com tarefas algorítmicas pequenas, observa-se que a predição de múltiplos tokens favorece o desenvolvimento de heads de indução e a capacidade de inferência algorítmica
- Como benefício adicional, o modelo treinado com predição de 4 tokens apresenta inferência até 3x mais rápida mesmo com batch size grande
Opinião do GN⁺
-
É uma pesquisa interessante que propõe um novo método de treinamento para melhorar a eficiência dos modelos de linguagem. Em especial, o fato de o ganho de desempenho ser mais claro em modelos de grande porte é um ponto notável
-
Seria positivo ter experimentos adicionais sobre como a predição de múltiplos tokens impacta o aprendizado de dependências de longo alcance. Por exemplo, vale a pena investigar também como o desempenho muda em tarefas de dependência de longa distância, como resolução de correferência entre frases
-
Embora o ganho tenha sido grande em tarefas de geração de domínios específicos, como programação e resolução de problemas matemáticos, é curioso saber qual o efeito em tarefas gerais de compreensão de linguagem natural e QA, por exemplo. Seria bom complementar com resultados em benchmarks diversos
-
A melhora da velocidade de inferência pode se tornar uma grande vantagem prática. Em especial, parece favorável para uso em chatbots ou sistemas de perguntas e respostas que exigem atendimento em tempo real
-
Em um momento em que modelos baseados em RLHF, como Constitutional AI da Anthropic e InstructGPT da OpenAI, estão em destaque, este estudo se mostra relevante por apresentar uma via para elevar o desempenho de modelos de linguagem apenas com aprendizado supervisionado. É claro que questões como alinhamento ético de valores ainda permanecem como desafios não resolvidos, mas do ponto de vista da eficiência de treinamento essa abordagem parece suficientemente competitiva
1 comentários
Comentários do Hacker News
Resumo: