5 pontos por xguru 2023-08-31 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Oferece comprimentos de sequência 4 vezes maiores do que os sistemas existentes, permitindo treinamento com sequências contendo mais de um milhão de tokens
  • A comunicação é reduzida em mais de 10 vezes, aumentando o throughput em até 2,5 vezes. O throughput se mantém acima de 175 TFlops/GPU
  • Attention totalmente generalista e agnóstica à implementação (também funciona com implementações como FlashAttention 2)
  • Suporte ao treinamento de modelos de grande escala: funciona com ZeRO-3 para suportar grandes tamanhos de sequência/modelo
  • Fácil de usar e altamente portátil, com mudanças mínimas nos frameworks existentes

Ainda não há comentários.

Ainda não há comentários.