1 pontos por GN⁺ 2023-07-24 | 1 comentários | Compartilhar no WhatsApp
  • É possível executar inferência de um pequeno modelo Llama 2 em C puro.
  • Este código permite treinar a arquitetura LLM do Llama 2 em PyTorch e salvar os pesos em arquivos binários brutos.
  • Depois, os pesos podem ser carregados em um arquivo C.
  • O arquivo C consegue executar modelos de tamanho considerável em alta velocidade.
  • Este projeto foi feito como um projeto de fim de semana e não é uma biblioteca para produção.
  • É possível baixar um modelo pré-treinado e executá-lo em C.
  • O código em C faz streaming de tokens brutos, que podem ser convertidos em texto com um wrapper simples.
  • O código em C roda a cerca de 100 tokens/s em um M1 MacBook Air.
  • A saída do código em C é texto gerado com base no modelo.
  • Este projeto foca em uma aplicação específica e treina a mesma arquitetura do zero.
  • É possível baixar o conjunto de dados de origem, pré-tokenizá-lo e então treinar o modelo.
  • Você pode ajustar os hiperparâmetros para criar um modelo melhor.
  • Também é possível executar o script de inferência em PyTorch para comparação.
  • Testes detalhados podem ser realizados com o script de teste fornecido.
  • Este projeto requer os arquivos model.bin e model.ckpt do treinamento em PyTorch.
  • O texto menciona algumas tarefas pendentes e perguntas.
  • Este projeto é disponibilizado sob a licença MIT.

1 comentários

 
GN⁺ 2023-07-24
Comentários do Hacker News
  • Andrej está sendo pago pela OpenAI enquanto ajuda a Apple, o Facebook e o movimento open source.
  • O checkpoint original roda mais rápido do que o esperado em um MacBook Air M1.
  • Um novo modelo de 44M está em treinamento.
  • O modelo Llama roda no navegador via Emscripten.
  • LLMs locais são uma tecnologia interessante para construir webapps de inferência local.
  • O código compila de forma limpa com o WASI SDK e roda em um runtime Wasm.
  • Mais detalhes podem ser vistos no Twitter do Andrej.
  • Os requisitos de memória necessários para executar a rede neural são discutidos.
  • Foi apontado que o Llama-2 não pode ser usado para trabalho criativo.
  • A indústria pode migrar para código-fonte separado para cada modelo lançado.
  • O apelo de algo "em um único arquivo" ou "header-only" foi discutido.
  • Há um comentário bem-humorado sobre criar testes melhores para reduzir o yolo.