Alpaca e a aceleração do desenvolvimento de LLMs on-device
(simonwillison.net)- Mudanças nos 3 dias desde o texto "SD Moment está chegando"
- Rodando em um Raspberry Pi de 4GB com llama.cpp. 10 segundos por token
- Passou a ser possível executar facilmente com Dalai
- Após implementar 26 segundos por token no Pixel 6 com llama.cpp, melhorou para 1 segundo por token no Pixel 5
- Stanford lançou o Alpaca, uma versão do LLaMA 7B ajustada com fine-tuning
Stanford's Alpaca
- A grande fraqueza do modelo LLaMA é a falta de "instruction tuning" para perguntas e respostas
- Uma das grandes inovações da OpenAI foi adicionar instruction tuning ao GPT-3
- Stanford disponibilizou 52.000 exemplos de treinamento e tornou possível treinar isso com apenas $100
- O menor modelo, o 7B, agora roda até em Raspberry Pi e celulares, gerando resultados muito impressionantes
- Mas ainda não é para uso comercial (impossível por 3 razões: a licença do LLaMA / o conjunto de dados de instruções foi gerado a partir de modelos da OpenAI / não foram projetadas salvaguardas de segurança)
O que isso significa?
- O modelo de licenciamento do LLaMA não importa muito para mim
- O LLaMA mostrou que é possível treinar um modelo de linguagem da classe GPT-3 com recursos geralmente acessíveis
- O llama.cpp mostrou que é possível rodar LLMs em hardware de consumo com algo em torno de 4GB
- O Alpaca mostrou que, com 52 mil exemplos e um custo de $100, é possível fazer fine-tuning de um modelo 7B (reduzido para 4GB com quantização em 4 bits) e obter resultados parecidos com o atual text-davinci-003
- O que foi usado na comparação foi o modelo 7B completo (13.48GB, ponto flutuante de 16 bits), não o modelo de 4GB reduzido para 4 bits; ainda não vi material que compare claramente a diferença de qualidade entre os dois
Ainda não há comentários.