• Este trabalho propõe um novo método de treinamento para modelos de linguagem de grande escala (LLM), chamado predição de múltiplos tokens, que consiste em treinar o modelo para prever vários tokens futuros simultaneamente. Os autores argumentam que essa abordagem resulta em maior eficiência amostral, o que significa que o modelo consegue aprender de forma mais eficaz com a mesma quantidade de dados de treinamento.
• Eles demonstram a eficácia do método em várias tarefas downstream, incluindo geração de código e processamento de linguagem natural, e mostram que a predição de múltiplos tokens supera continuamente linhas de base fortes em vários pontos percentuais. Em particular, o modelo deles de 13 bilhões de parâmetros alcança ganhos significativos em benchmarks de codificação desafiadores, como HumanEval e MBPP.
• Além do desempenho aprimorado, a predição de múltiplos tokens também oferece vantagens computacionais. Um modelo treinado com predição de 4 tokens é até 3 vezes mais rápido na inferência, mesmo com lotes grandes, tornando-o mais eficiente para aplicações em produção.
Ainda não há comentários.