gigaGPT - um modelo GPT-3 feito em 565 linhas de código

xguru · 2023-12-16T10:31:01+09:00

Melhora o nanoGPT de Andrei Karpathy, que só consegue lidar com 100M (100 milhões) de parâmetros, permitindo treinamento de até 100B (100 bilhões) Não depende de outro código nem de frameworks de terceiros e aproveita a grande capacidade de memória e computação do "hardware da Cerebras" para viabilizar treinamento em grande escala com código vanilla de torch.nn Suporta comprimentos de contexto longos sem modificações adicionais e funciona com várias ferramentas de otimização A Cerebras é uma fabricante de chipsets; a velocidade de multiplicação de matrizes é parecida com a de GPUs, mas a empresa faz chips muito maiores para colocar mais transistores e memória em um único chip Graças a esse tamanho, não é necessário fazer operações como sharding e depois integração entre vários dispositivos, o que permite manter o LOC baixo

(cerebras.net)

12 pontos por xguru 2023-12-16 | Ainda não há comentários. | Compartilhar no WhatsApp

Melhora o nanoGPT de Andrei Karpathy, que só consegue lidar com 100M (100 milhões) de parâmetros, permitindo treinamento de até 100B (100 bilhões)
Não depende de outro código nem de frameworks de terceiros e aproveita a grande capacidade de memória e computação do "hardware da Cerebras" para viabilizar treinamento em grande escala com código vanilla de torch.nn
Suporta comprimentos de contexto longos sem modificações adicionais e funciona com várias ferramentas de otimização
A Cerebras é uma fabricante de chipsets; a velocidade de multiplicação de matrizes é parecida com a de GPUs, mas a empresa faz chips muito maiores para colocar mais transistores e memória em um único chip
- Graças a esse tamanho, não é necessário fazer operações como sharding e depois integração entre vários dispositivos, o que permite manter o LOC baixo

gigaGPT - um modelo GPT-3 feito em 565 linhas de código

Leituras relacionadas

Ainda não há comentários.