4 pontos por xguru 2023-01-03 | 3 comentários | Compartilhar no WhatsApp
  • Executa "coletivamente" modelos de linguagem ultragrandes como o BLOOM-176B
    • Conecte sua GPU ao Petals
    • Cada pessoa carrega uma parte do modelo e, junto com outras, executa inferência e ajuste fino
  • A inferência leva cerca de 1 segundo por etapa (token), sendo 10 vezes mais rápida que offloading, o suficiente para chatbots e outros apps interativos
    • A inferência paralela pode alcançar centenas de tokens por segundo
  • Estão trabalhando para introduzir incentivos explícitos (Bloom Points) para quem fornece tempo de GPU

3 comentários

 
won9497 2023-01-03

bom!!

 
won9497 2023-01-03

Ué, não é este texto...

 
xguru 2023-01-03

Até a versão muito menor, o BLOOM-7B, se você rodar diretamente em local, leva cerca de 90 segundos em um Ryzen (16 núcleos) + 32 GB de RAM.
Se funcionar bem como eles afirmam, até que parece bem interessante... mas passa um pouco aquela sensação de blockchain...
(Segundo o desenvolvedor, eles dizem que não usam blockchain)