A previsão de múltiplos tokens melhora a eficiência amostral e o desempenho de modelos de linguagem em grande escala.

(arxiv.org)

2 pontos por brainer 2024-05-01 | Ainda não há comentários. | Compartilhar no WhatsApp

• Este trabalho propõe um novo método de treinamento para modelos de linguagem de grande escala (LLM), chamado predição de múltiplos tokens, que consiste em treinar o modelo para prever vários tokens futuros simultaneamente. Os autores argumentam que essa abordagem resulta em maior eficiência amostral, o que significa que o modelo consegue aprender de forma mais eficaz com a mesma quantidade de dados de treinamento.

• Eles demonstram a eficácia do método em várias tarefas downstream, incluindo geração de código e processamento de linguagem natural, e mostram que a predição de múltiplos tokens supera continuamente linhas de base fortes em vários pontos percentuais. Em particular, o modelo deles de 13 bilhões de parâmetros alcança ganhos significativos em benchmarks de codificação desafiadores, como HumanEval e MBPP.

• Além do desempenho aprimorado, a predição de múltiplos tokens também oferece vantagens computacionais. Um modelo treinado com predição de 4 tokens é até 3 vezes mais rápido na inferência, mesmo com lotes grandes, tornando-o mais eficiente para aplicações em produção.

A previsão de múltiplos tokens melhora a eficiência amostral e o desempenho de modelos de linguagem em grande escala.

Leituras relacionadas

Ainda não há comentários.