- Duas implementações escaláveis para tamanhos GPT-3+ estão em desenvolvimento
→ GPT-Neo: código baseado em Tensorflow-mesh (TPU)
→ GPT-Neox: código baseado em DeepSpeed (GPU)
-
O treinamento em escala GPT-2 já foi concluído, e a avaliação do modelo está em revisão
-
Testado até 200 bilhões de parâmetros em treinamento de etapa única
Ainda não há comentários.