- A Meta lançou modelos Llama quantizados e leves, capazes de rodar em dispositivos móveis
- Personalizados para aplicações com contexto curto de até 8K
- Os modelos quantizados alcançam melhora de velocidade de 2 a 4 vezes, redução de 56% no tamanho do modelo e redução de 41% no uso de memória.
- Técnica de quantização
- Para os modelos Llama 3.2 1B e 3B, foram usadas as técnicas Quantization-Aware Training (QAT) e SpinQuant.
- O QAT prioriza a precisão, enquanto o SpinQuant prioriza a portabilidade.
- As duas técnicas de quantização são suportadas pelo framework ExecuTorch do PyTorch.
- Otimização para dispositivos móveis
- Foram projetados para rodar em SoCs da Qualcomm e da MediaTek.
- Em testes no Android OnePlus 12, o tamanho do modelo e o uso de memória caíram de forma significativa.
- O desempenho é otimizado com uso de CPU e NPU móveis.
- Configuração de quantização
- Projetada considerando o framework de inferência ExecuTorch do PyTorch e o backend de CPU Arm.
- Todas as camadas lineares são quantizadas em grupos de 4 bits, e as ativações usam quantização dinâmica de 8 bits.
- Treinamento com consciência de quantização (QAT) e LoRA
- Uso de QAT, que simula os efeitos da quantização durante o treinamento do modelo Llama 3.2, para otimizar o desempenho em ambientes de baixa precisão
- Para inicializar o QAT, foram usados checkpoints BF16 do Llama 3.2 e foi realizado treinamento SFT adicional com QAT
- O backbone do modelo QAT foi congelado, e um novo SFT foi realizado com adaptadores LoRA aplicados
- O QAT foi executado usando a API torchao
- SpinQuant
- É menos preciso que QAT + LoRA, mas tem excelente portabilidade por funcionar sem acesso ao dataset.
- Permite quantizar modelos de acordo com diferentes alvos de hardware e casos de uso.
- Resultados
- A abordagem QLoRA apresentou a melhor qualidade geral em todos os aspectos
- Em comparação com BF16, a latência de decode melhorou em média 2,5 vezes, e a latência de prefill melhorou 4,2 vezes
- O tamanho do modelo caiu em média 56%, e o uso de memória caiu 41%
- As medições foram feitas em um Android OnePlus 12; em dispositivos iOS, a precisão foi semelhante, mas o desempenho não foi avaliado
Resumo do GN⁺
- Os modelos Llama quantizados da Meta têm como objetivo reduzir peso e otimizar desempenho para execução em dispositivos móveis
- Com as técnicas QAT e SpinQuant, oferecem modelos quantizados que equilibram precisão e portabilidade
- O desempenho é maximizado com uso de CPU e NPU móveis, com suporte a uso em diferentes hardwares
- Por meio de colaboração próxima com diversas plataformas móveis e parceiros, a solução parece ter alcançado um nível viável para aplicação em produtos reais
- Os modelos Llama da Meta são avaliados como competitivos em abertura, capacidade de modificação e eficiência de custos, e espera-se que continuem oferecendo experiências robustas de IA em dispositivos móveis por meio de inovação contínua
Ainda não há comentários.