Google lança como open source o modelo de IA para NLP Switch Transformer com 1,6 trilhão de parâmetros
(infoq.com)-
Melhoria de 7x na velocidade de treinamento em comparação com o modelo T5 (Text-to-Text Transfer Transformer) existente
-
Um algoritmo MoE (Mixture-of-Experts) modificado chamado Switch Routing, que aplica parâmetros diferentes para cada valor de entrada
-
Uso do Mesh-Tensorflow para o treinamento do modelo (paralelismo de modelo)
Ainda não há comentários.