Alpaca e a aceleração do desenvolvimento de LLMs on-device

xguru · 2023-03-15T11:19:23+09:00

Mudanças nos 3 dias desde o texto "SD Moment está chegando" Rodando em um Raspberry Pi de 4GB com llama.cpp. 10 segundos por token Passou a ser possível executar facilmente com Dalai Após implementar 26 segundos por token no Pixel 6 com llama.cpp, melhorou para 1 segundo por token no Pixel 5 Stanford lançou o Alpaca, uma versão do LLaMA 7B ajustada com fine-tuning Stanford's Alpaca A grande fraqueza do modelo LLaMA é a falta de "instruction tuning" para perguntas e respostas Uma das grandes inovações da OpenAI foi adicionar instruction tuning ao GPT-3 Stanford disponibilizou 52.000 exemplos de treinamento e tornou possível treinar isso com apenas $100 O menor modelo, o 7B, agora roda até em Raspberry Pi e celulares, gerando resultados muito impressionantes Mas ainda não é para uso comercial (impossível por 3 razões: a licença do LLaMA / o conjunto de dados de instruções foi gerado a partir de modelos da OpenAI / não foram projetadas salvaguardas de segurança) O que isso significa? O modelo de licenciamento do LLaMA não importa muito para mim O LLaMA mostrou que é possível treinar um modelo de linguagem da classe GPT-3 com recursos geralmente acessíveis O llama.cpp mostrou que é possível rodar LLMs em hardware de consumo com algo em torno de 4GB O Alpaca mostrou que, com 52 mil exemplos e um custo de $100, é possível fazer fine-tuning de um modelo 7B (reduzido para 4GB com quantização em 4 bits) e obter resultados parecidos com o atual text-davinci-003 O que foi usado na comparação foi o modelo 7B completo (13.48GB, ponto flutuante de 16 bits), não o modelo de 4GB reduzido para 4 bits; ainda não vi material que compare claramente a diferença de qualidade entre os dois

(simonwillison.net)

11 pontos por xguru 2023-03-15 | Ainda não há comentários. | Compartilhar no WhatsApp

Mudanças nos 3 dias desde o texto "SD Moment está chegando"
- Rodando em um Raspberry Pi de 4GB com llama.cpp. 10 segundos por token
- Passou a ser possível executar facilmente com Dalai
- Após implementar 26 segundos por token no Pixel 6 com llama.cpp, melhorou para 1 segundo por token no Pixel 5
- Stanford lançou o Alpaca, uma versão do LLaMA 7B ajustada com fine-tuning

Stanford's Alpaca

A grande fraqueza do modelo LLaMA é a falta de "instruction tuning" para perguntas e respostas
Uma das grandes inovações da OpenAI foi adicionar instruction tuning ao GPT-3
Stanford disponibilizou 52.000 exemplos de treinamento e tornou possível treinar isso com apenas $100
O menor modelo, o 7B, agora roda até em Raspberry Pi e celulares, gerando resultados muito impressionantes
Mas ainda não é para uso comercial (impossível por 3 razões: a licença do LLaMA / o conjunto de dados de instruções foi gerado a partir de modelos da OpenAI / não foram projetadas salvaguardas de segurança)

O que isso significa?

O modelo de licenciamento do LLaMA não importa muito para mim
O LLaMA mostrou que é possível treinar um modelo de linguagem da classe GPT-3 com recursos geralmente acessíveis
O llama.cpp mostrou que é possível rodar LLMs em hardware de consumo com algo em torno de 4GB
O Alpaca mostrou que, com 52 mil exemplos e um custo de $100, é possível fazer fine-tuning de um modelo 7B (reduzido para 4GB com quantização em 4 bits) e obter resultados parecidos com o atual text-davinci-003
- O que foi usado na comparação foi o modelo 7B completo (13.48GB, ponto flutuante de 16 bits), não o modelo de 4GB reduzido para 4 bits; ainda não vi material que compare claramente a diferença de qualidade entre os dois

Alpaca e a aceleração do desenvolvimento de LLMs on-device

Stanford's Alpaca

O que isso significa?

Leituras relacionadas

Ainda não há comentários.