- É possível executar inferência de um pequeno modelo Llama 2 em C puro.
- Este código permite treinar a arquitetura LLM do Llama 2 em PyTorch e salvar os pesos em arquivos binários brutos.
- Depois, os pesos podem ser carregados em um arquivo C.
- O arquivo C consegue executar modelos de tamanho considerável em alta velocidade.
- Este projeto foi feito como um projeto de fim de semana e não é uma biblioteca para produção.
- É possível baixar um modelo pré-treinado e executá-lo em C.
- O código em C faz streaming de tokens brutos, que podem ser convertidos em texto com um wrapper simples.
- O código em C roda a cerca de 100 tokens/s em um M1 MacBook Air.
- A saída do código em C é texto gerado com base no modelo.
- Este projeto foca em uma aplicação específica e treina a mesma arquitetura do zero.
- É possível baixar o conjunto de dados de origem, pré-tokenizá-lo e então treinar o modelo.
- Você pode ajustar os hiperparâmetros para criar um modelo melhor.
- Também é possível executar o script de inferência em PyTorch para comparação.
- Testes detalhados podem ser realizados com o script de teste fornecido.
- Este projeto requer os arquivos
model.bin e model.ckpt do treinamento em PyTorch.
- O texto menciona algumas tarefas pendentes e perguntas.
- Este projeto é disponibilizado sob a licença MIT.
1 comentários
Comentários do Hacker News