Stanford's Alpaca
- A grande fraqueza do modelo LLaMA é a falta de "instruction tuning" para perguntas e respostas
- Uma das grandes inovações da OpenAI foi adicionar instruction tuning ao GPT-3
- Stanford disponibilizou 52.000 exemplos de treinamento e tornou possível treinar isso com apenas $100
- O menor modelo, o 7B, agora roda até em Raspberry Pi e celulares, gerando resultados muito impressionantes
- Mas ainda não é para uso comercial (impossível por 3 razões: a licença do LLaMA / o conjunto de dados de instruções foi gerado a partir de modelos da OpenAI / não foram projetadas salvaguardas de segurança)
O que isso significa?
- O modelo de licenciamento do LLaMA não importa muito para mim
- O LLaMA mostrou que é possível treinar um modelo de linguagem da classe GPT-3 com recursos geralmente acessíveis
- O llama.cpp mostrou que é possível rodar LLMs em hardware de consumo com algo em torno de 4GB
- O Alpaca mostrou que, com 52 mil exemplos e um custo de $100, é possível fazer fine-tuning de um modelo 7B (reduzido para 4GB com quantização em 4 bits) e obter resultados parecidos com o atual text-davinci-003
- O que foi usado na comparação foi o modelo 7B completo (13.48GB, ponto flutuante de 16 bits), não o modelo de 4GB reduzido para 4 bits; ainda não vi material que compare claramente a diferença de qualidade entre os dois
Ainda não há comentários.