2 pontos por GN⁺ 2024-10-25 | Ainda não há comentários. | Compartilhar no WhatsApp
  • A Meta lançou modelos Llama quantizados e leves, capazes de rodar em dispositivos móveis
  • Personalizados para aplicações com contexto curto de até 8K
  • Os modelos quantizados alcançam melhora de velocidade de 2 a 4 vezes, redução de 56% no tamanho do modelo e redução de 41% no uso de memória.
  • Técnica de quantização
    • Para os modelos Llama 3.2 1B e 3B, foram usadas as técnicas Quantization-Aware Training (QAT) e SpinQuant.
    • O QAT prioriza a precisão, enquanto o SpinQuant prioriza a portabilidade.
    • As duas técnicas de quantização são suportadas pelo framework ExecuTorch do PyTorch.
  • Otimização para dispositivos móveis
    • Foram projetados para rodar em SoCs da Qualcomm e da MediaTek.
    • Em testes no Android OnePlus 12, o tamanho do modelo e o uso de memória caíram de forma significativa.
    • O desempenho é otimizado com uso de CPU e NPU móveis.
  • Configuração de quantização
    • Projetada considerando o framework de inferência ExecuTorch do PyTorch e o backend de CPU Arm.
    • Todas as camadas lineares são quantizadas em grupos de 4 bits, e as ativações usam quantização dinâmica de 8 bits.
  • Treinamento com consciência de quantização (QAT) e LoRA
    • Uso de QAT, que simula os efeitos da quantização durante o treinamento do modelo Llama 3.2, para otimizar o desempenho em ambientes de baixa precisão
    • Para inicializar o QAT, foram usados checkpoints BF16 do Llama 3.2 e foi realizado treinamento SFT adicional com QAT
    • O backbone do modelo QAT foi congelado, e um novo SFT foi realizado com adaptadores LoRA aplicados
    • O QAT foi executado usando a API torchao
  • SpinQuant
    • É menos preciso que QAT + LoRA, mas tem excelente portabilidade por funcionar sem acesso ao dataset.
    • Permite quantizar modelos de acordo com diferentes alvos de hardware e casos de uso.
  • Resultados
    • A abordagem QLoRA apresentou a melhor qualidade geral em todos os aspectos
    • Em comparação com BF16, a latência de decode melhorou em média 2,5 vezes, e a latência de prefill melhorou 4,2 vezes
    • O tamanho do modelo caiu em média 56%, e o uso de memória caiu 41%
    • As medições foram feitas em um Android OnePlus 12; em dispositivos iOS, a precisão foi semelhante, mas o desempenho não foi avaliado

Resumo do GN⁺

  • Os modelos Llama quantizados da Meta têm como objetivo reduzir peso e otimizar desempenho para execução em dispositivos móveis
  • Com as técnicas QAT e SpinQuant, oferecem modelos quantizados que equilibram precisão e portabilidade
  • O desempenho é maximizado com uso de CPU e NPU móveis, com suporte a uso em diferentes hardwares
  • Por meio de colaboração próxima com diversas plataformas móveis e parceiros, a solução parece ter alcançado um nível viável para aplicação em produtos reais
  • Os modelos Llama da Meta são avaliados como competitivos em abertura, capacidade de modificação e eficiência de custos, e espera-se que continuem oferecendo experiências robustas de IA em dispositivos móveis por meio de inovação contínua

Ainda não há comentários.

Ainda não há comentários.