3 pontos por xguru 2021-02-19 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Melhoria de 7x na velocidade de treinamento em comparação com o modelo T5 (Text-to-Text Transfer Transformer) existente

  • Um algoritmo MoE (Mixture-of-Experts) modificado chamado Switch Routing, que aplica parâmetros diferentes para cada valor de entrada

  • Uso do Mesh-Tensorflow para o treinamento do modelo (paralelismo de modelo)

Ainda não há comentários.

Ainda não há comentários.