7 pontos por xguru 2021-01-19 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Duas implementações escaláveis para tamanhos GPT-3+ estão em desenvolvimento

→ GPT-Neo: código baseado em Tensorflow-mesh (TPU)

→ GPT-Neox: código baseado em DeepSpeed (GPU)

  • O treinamento em escala GPT-2 já foi concluído, e a avaliação do modelo está em revisão

  • Testado até 200 bilhões de parâmetros em treinamento de etapa única

Ainda não há comentários.

Ainda não há comentários.