12 pontos por xguru 2023-12-16 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Melhora o nanoGPT de Andrei Karpathy, que só consegue lidar com 100M (100 milhões) de parâmetros, permitindo treinamento de até 100B (100 bilhões)
  • Não depende de outro código nem de frameworks de terceiros e aproveita a grande capacidade de memória e computação do "hardware da Cerebras" para viabilizar treinamento em grande escala com código vanilla de torch.nn
  • Suporta comprimentos de contexto longos sem modificações adicionais e funciona com várias ferramentas de otimização
  • A Cerebras é uma fabricante de chipsets; a velocidade de multiplicação de matrizes é parecida com a de GPUs, mas a empresa faz chips muito maiores para colocar mais transistores e memória em um único chip
    • Graças a esse tamanho, não é necessário fazer operações como sharding e depois integração entre vários dispositivos, o que permite manter o LOC baixo

Ainda não há comentários.

Ainda não há comentários.