GPT-Neo: projeto para tornar modelos na escala do GPT-3 open source e gratuitos

xguru · 2021-01-19T09:54:11+09:00

Duas implementações escaláveis para tamanhos GPT-3+ estão em desenvolvimento → GPT-Neo: código baseado em Tensorflow-mesh (TPU) → GPT-Neox: código baseado em DeepSpeed (GPU) O treinamento em escala GPT-2 já foi concluído, e a avaliação do modelo está em revisão Testado até 200 bilhões de parâmetros em treinamento de etapa única

(github.com)

7 pontos por xguru 2021-01-19 | Ainda não há comentários. | Compartilhar no WhatsApp

Duas implementações escaláveis para tamanhos GPT-3+ estão em desenvolvimento

→ GPT-Neo: código baseado em Tensorflow-mesh (TPU)

→ GPT-Neox: código baseado em DeepSpeed (GPU)

O treinamento em escala GPT-2 já foi concluído, e a avaliação do modelo está em revisão
Testado até 200 bilhões de parâmetros em treinamento de etapa única

GPT-Neo: projeto para tornar modelos na escala do GPT-3 open source e gratuitos

Leituras relacionadas

Ainda não há comentários.