- Executa "coletivamente" modelos de linguagem ultragrandes como o BLOOM-176B
- Conecte sua GPU ao Petals
- Cada pessoa carrega uma parte do modelo e, junto com outras, executa inferência e ajuste fino
- A inferência leva cerca de 1 segundo por etapa (token), sendo 10 vezes mais rápida que offloading, o suficiente para chatbots e outros apps interativos
- A inferência paralela pode alcançar centenas de tokens por segundo
- Estão trabalhando para introduzir incentivos explícitos (Bloom Points) para quem fornece tempo de GPU
3 comentários
bom!!
Ué, não é este texto...
Até a versão muito menor, o BLOOM-7B, se você rodar diretamente em local, leva cerca de 90 segundos em um Ryzen (16 núcleos) + 32 GB de RAM.
Se funcionar bem como eles afirmam, até que parece bem interessante... mas passa um pouco aquela sensação de blockchain...
(Segundo o desenvolvedor, eles dizem que não usam blockchain)