2 pontos por GN⁺ 2023-09-18 | 1 comentários | Compartilhar no WhatsApp
  • O artigo apresenta Petals, uma nova tecnologia que permite aos usuários executar grandes modelos de linguagem (LLMs) em casa de forma semelhante ao BitTorrent.
  • O Petals oferece suporte a vários LLMs e seus derivados, incluindo Llama 2 (70B), Falcon (180B) e BLOOM (176B).
  • Essa tecnologia funciona carregando parte do modelo no dispositivo do usuário e depois conectando-o a uma rede de outros usuários que fornecem o restante.
  • Ele oferece velocidade de inferência de lote único de 6 tokens/segundo para o Llama 2 e 4 tokens/segundo para o Falcon. Essa velocidade é suficiente para chatbots e aplicativos interativos.
  • O Petals vai além das APIs clássicas de LLM ao permitir que os usuários usem qualquer método de fine-tuning e amostragem, executem caminhos personalizados pelo modelo ou visualizem estados ocultos.
  • O Petals combina a flexibilidade do PyTorch e do 🤗 Transformers com a conveniência de uma API.
  • Os usuários podem testar o Petals no Google Colab e consultar a documentação no GitHub.
  • O artigo lista os principais contribuidores do projeto e fornece um link para contribuir com GPU.
  • Os usuários podem acompanhar o desenvolvimento do Petals pelo Discord ou por assinatura de e-mail.
  • Este projeto faz parte do workshop de pesquisa BigScience.

1 comentários

 
GN⁺ 2023-09-18
Comentários do Hacker News
  • Artigo sobre uma nova forma de rodar grandes modelos de linguagem (LLMs) em casa de maneira semelhante ao BitTorrent
  • Os pesos do modelo são divididos em camadas entre várias máquinas, que cooperam para realizar inferência ou ajuste fino
  • Um projeto chamado Ollama está em desenvolvimento, hospedando pesos de modelo em um registro Docker para garantir que os pesos corretos sejam baixados sempre
  • O uso de quantização/QLORA permite rodar modelos grandes em hardware de consumo com velocidade aceitável, evitando a latência causada pelo paralelismo entre diferentes servidores
  • O ajuste fino de modelos grandes como 70B é desafiador e exige recursos caros, com proposta de contribuição coletiva no estilo de uma "llama training horde"
  • Há preocupações sobre vulnerabilidades do sistema, já que participantes mal-intencionados podem alterar as saídas ou retornar resultados inúteis para atrapalhar o sistema
  • O Petals, que faz parte do projeto, permite que usuários compartilhem GPU e contribuam com código, oferecendo uma experiência típica de programação
  • O sistema pode fornecer uma certa quantidade de tokens distribuídos, o que pode beneficiar usuários com dispositivos de baixo desempenho
  • O projeto parece ter potencial para mudar o jogo, oferecendo mais acessibilidade a desenvolvedores dessa área
  • O Petals opera um sistema centralizado de incentivos semelhante aos kudos do AI Horde, embora em outros aspectos seja um sistema distribuído. Os incentivos não podem ser trocados por dinheiro e foram pensados para uso dentro do sistema
  • Alguns usuários enfrentam problemas com versões de dependências ao tentar compartilhar GPU
  • Foi sugerido usar "tokens" para ciclos de GPU, com a ideia de seguir o sol para maximizar o uso de energia solar fotovoltaica