- O artigo apresenta Petals, uma nova tecnologia que permite aos usuários executar grandes modelos de linguagem (LLMs) em casa de forma semelhante ao BitTorrent.
- O Petals oferece suporte a vários LLMs e seus derivados, incluindo Llama 2 (70B), Falcon (180B) e BLOOM (176B).
- Essa tecnologia funciona carregando parte do modelo no dispositivo do usuário e depois conectando-o a uma rede de outros usuários que fornecem o restante.
- Ele oferece velocidade de inferência de lote único de 6 tokens/segundo para o Llama 2 e 4 tokens/segundo para o Falcon. Essa velocidade é suficiente para chatbots e aplicativos interativos.
- O Petals vai além das APIs clássicas de LLM ao permitir que os usuários usem qualquer método de fine-tuning e amostragem, executem caminhos personalizados pelo modelo ou visualizem estados ocultos.
- O Petals combina a flexibilidade do PyTorch e do 🤗 Transformers com a conveniência de uma API.
- Os usuários podem testar o Petals no Google Colab e consultar a documentação no GitHub.
- O artigo lista os principais contribuidores do projeto e fornece um link para contribuir com GPU.
- Os usuários podem acompanhar o desenvolvimento do Petals pelo Discord ou por assinatura de e-mail.
- Este projeto faz parte do workshop de pesquisa BigScience.
1 comentários
Comentários do Hacker News