3 pontos por GN⁺ 2024-07-11 | 1 comentários | Compartilhar no WhatsApp
  • Inclui o código de treinamento do MobileLLM, apresentado no artigo "MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases" da ICML 2024
  • Este estudo considera de forma abrangente vários elementos de design para obter LLMs de alta qualidade com menos de 1 bilhão de parâmetros
  • O MobileLLM foi construído integrando (1) a função de ativação SwiGLU, (2) uma arquitetura profunda e estreita, (3) compartilhamento de embeddings e (4) grouped-query attention
  • O MobileLLM-125M/350M alcança melhorias de precisão de 2,7%/4,3%, respectivamente, em tarefas de raciocínio de senso comum em zero-shot, em comparação com os modelos SoTA anteriores de 125M/350M
  • Na versão atualizada, os modelos MobileLLM-600M/1B/1.5B foram ampliados para modelos maiores e mostram resultados SoTA

Resumo do GN⁺

  • O MobileLLM apresenta uma filosofia de design otimizada para modelos de linguagem de alta qualidade com menos de 1 bilhão de parâmetros
  • Melhora o desempenho ao integrar elementos como a função de ativação SwiGLU, uma arquitetura profunda e estreita, compartilhamento de embeddings e grouped-query attention
  • Alcança maior precisão em tarefas de raciocínio de senso comum em zero-shot em comparação com modelos anteriores
  • Este estudo representa uma contribuição importante para casos de uso de modelos de linguagem em dispositivos móveis e embarcados
  • Projetos com funcionalidades semelhantes incluem GPT-neo, OPT e BLOOM

1 comentários

 
GN⁺ 2024-07-11
Comentários no Hacker News
  • Os modelos MobileLLM-125M/350M mostraram uma melhora de precisão de 2,7%/4,3% em relação aos modelos SoTA anteriores de 125M/350M

    • Os modelos pequenos melhoraram um pouco, mas ainda não são suficientes para o mesmo tipo de uso que modelos online
    • Menciona que não há problema com progresso incremental
  • Menciona que o modelo de 1.5B parâmetros representou um avanço considerável

    • Pergunta por que não usaram modelos maiores
    • Menciona que um modelo eficiente que caiba em hardware do tamanho de um RPi pode ser um divisor de águas
    • Menciona que o modelo TinyLlama 7B roda por muito pouco
  • Pergunta se o Apple Watch tem capacidade de hardware para executar inferência com modelos pequenos

    • Pergunta se é necessária uma conta de desenvolvedor
  • Pergunta se isso precisa ficar restrito apenas a dispositivos móveis

    • Menciona que, se não consumir muitos recursos, poderia tornar os diálogos de NPCs em jogos mais interessantes
    • Menciona que seria ainda melhor se pudesse ser ajustado para influenciar o comportamento ou as ações dos NPCs
  • Menciona que atualmente precisa de STT no dispositivo para algo como wake word

    • Está procurando o modelo com menor WER que rode em um RPi 4B
    • Está olhando o openWakeWord
    • Menciona que precisa disso para um sistema de inventário DIY
  • Está procurando um app que possa rodar no iPhone

    • No momento só conhece o app MLC, e ele tem apenas 3 modelos antigos
  • Pergunta até onde dá para levar a parte de "mais profundo e mais fino"

    • Menciona que o desempenho melhoraria se o FFN coubesse no cache L2
  • Pergunta se métodos como destilação poderiam ajudar

  • Menciona que modelos pequenos parecem obter a maior redução de tamanho por meio de compartilhamento / tying de pesos entre o linear head e os token embeddings

    • Pergunta se há pesquisas sobre formas de reduzir ainda mais o tamanho depois disso
  • Pergunta se também é possível treinar o modelo em um PC com Windows usando isso

    • Menciona que não tem muita RAM
  • Acha interessante, mas pergunta que casos de uso existem além de um autocompletar melhor