- Melhora o
nanoGPT de Andrei Karpathy, que só consegue lidar com 100M (100 milhões) de parâmetros, permitindo treinamento de até 100B (100 bilhões)
- Não depende de outro código nem de frameworks de terceiros e aproveita a grande capacidade de memória e computação do "hardware da Cerebras" para viabilizar treinamento em grande escala com código vanilla de
torch.nn
- Suporta comprimentos de contexto longos sem modificações adicionais e funciona com várias ferramentas de otimização
- A Cerebras é uma fabricante de chipsets; a velocidade de multiplicação de matrizes é parecida com a de GPUs, mas a empresa faz chips muito maiores para colocar mais transistores e memória em um único chip
- Graças a esse tamanho, não é necessário fazer operações como sharding e depois integração entre vários dispositivos, o que permite manter o LOC baixo
Ainda não há comentários.