Petals - rodando modelos de linguagem de 100B+ em casa no estilo BitTorrent

xguru · 2023-01-03T10:56:19+09:00

Executa "coletivamente" modelos de linguagem ultragrandes como o BLOOM-176B Conecte sua GPU ao Petals Cada pessoa carrega uma parte do modelo e, junto com outras, executa inferência e ajuste fino A inferência leva cerca de 1 segundo por etapa (token), sendo 10 vezes mais rápida que offloading, o suficiente para chatbots e outros apps interativos A inferência paralela pode alcançar centenas de tokens por segundo Estão trabalhando para introduzir incentivos explícitos (Bloom Points) para quem fornece tempo de GPU

(github.com/bigscience-workshop)

4 pontos por xguru 2023-01-03 | 3 comentários | Compartilhar no WhatsApp

Executa "coletivamente" modelos de linguagem ultragrandes como o BLOOM-176B
- Conecte sua GPU ao Petals
- Cada pessoa carrega uma parte do modelo e, junto com outras, executa inferência e ajuste fino
A inferência leva cerca de 1 segundo por etapa (token), sendo 10 vezes mais rápida que offloading, o suficiente para chatbots e outros apps interativos
- A inferência paralela pode alcançar centenas de tokens por segundo
Estão trabalhando para introduzir incentivos explícitos (Bloom Points) para quem fornece tempo de GPU

3 comentários

won9497 2023-01-03

bom!!

won9497 2023-01-03

Ué, não é este texto...

xguru 2023-01-03

Até a versão muito menor, o BLOOM-7B, se você rodar diretamente em local, leva cerca de 90 segundos em um Ryzen (16 núcleos) + 32 GB de RAM.
Se funcionar bem como eles afirmam, até que parece bem interessante... mas passa um pouco aquela sensação de blockchain...
(Segundo o desenvolvedor, eles dizem que não usam blockchain)

Petals - rodando modelos de linguagem de 100B+ em casa no estilo BitTorrent

Leituras relacionadas

3 comentários