- Inclui o código de treinamento do MobileLLM, apresentado no artigo "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" da ICML 2024
- Este estudo considera de forma abrangente vários elementos de design para obter LLMs de alta qualidade com menos de 1 bilhão de parâmetros
- O MobileLLM foi construído integrando (1) a função de ativação SwiGLU, (2) uma arquitetura profunda e estreita, (3) compartilhamento de embeddings e (4) grouped-query attention
- O MobileLLM-125M/350M alcança melhorias de precisão de 2,7%/4,3%, respectivamente, em tarefas de raciocínio de senso comum em zero-shot, em comparação com os modelos SoTA anteriores de 125M/350M
- Na versão atualizada, os modelos MobileLLM-600M/1B/1.5B foram ampliados para modelos maiores e mostram resultados SoTA
Resumo do GN⁺
- O MobileLLM apresenta uma filosofia de design otimizada para modelos de linguagem de alta qualidade com menos de 1 bilhão de parâmetros
- Melhora o desempenho ao integrar elementos como a função de ativação SwiGLU, uma arquitetura profunda e estreita, compartilhamento de embeddings e grouped-query attention
- Alcança maior precisão em tarefas de raciocínio de senso comum em zero-shot em comparação com modelos anteriores
- Este estudo representa uma contribuição importante para casos de uso de modelos de linguagem em dispositivos móveis e embarcados
- Projetos com funcionalidades semelhantes incluem GPT-neo, OPT e BLOOM
1 comentários
Comentários no Hacker News
Os modelos MobileLLM-125M/350M mostraram uma melhora de precisão de 2,7%/4,3% em relação aos modelos SoTA anteriores de 125M/350M
Menciona que o modelo de 1.5B parâmetros representou um avanço considerável
Pergunta se o Apple Watch tem capacidade de hardware para executar inferência com modelos pequenos
Pergunta se isso precisa ficar restrito apenas a dispositivos móveis
Menciona que atualmente precisa de STT no dispositivo para algo como wake word
Está procurando um app que possa rodar no iPhone
Pergunta até onde dá para levar a parte de "mais profundo e mais fino"
Pergunta se métodos como destilação poderiam ajudar
Menciona que modelos pequenos parecem obter a maior redução de tamanho por meio de compartilhamento / tying de pesos entre o linear head e os token embeddings
Pergunta se também é possível treinar o modelo em um PC com Windows usando isso
Acha interessante, mas pergunta que casos de uso existem além de um autocompletar melhor