xAI divulga os pesos do modelo base e a arquitetura de rede do LLM Grok-1

(github.com/xai-org)

6 pontos por GN⁺ 2024-03-18 | 1 comentários | Compartilhar no WhatsApp

Lançamento dos pesos e da arquitetura de um modelo Mixture-of-Experts com 314B (314 bilhões) de parâmetros
Modelo base bruto da fase de pré-treinamento do Grok-1, concluída em outubro de 2023
- Isso significa que o modelo não foi ajustado finamente para tarefas específicas, como conversação
Detalhes do modelo
- Modelo base treinado com grande volume de dados de texto, sem ajuste fino para tarefas específicas
- Modelo Mixture of Experts de 314B parâmetros, com 25% dos pesos ativados para cada token fornecido
- Treinado do zero pela xAI em outubro de 2023 usando uma stack de treinamento personalizada sobre JAX e Rust

Como usar o repositório do Grok-1

O repositório do Grok-1, que inclui código de exemplo em JAX, é usado para carregar e executar o modelo open-weight Grok-1.
Baixe o checkpoint e coloque o diretório ckpt-0 dentro do diretório checkpoint; depois execute pip install -r requirements.txt e python run.py para testar o código.
O script carrega o checkpoint e gera amostras do modelo para entradas de teste.
Como o modelo é extremamente grande (314B parâmetros), é necessário um computador com memória GPU suficiente.
A implementação da camada MoE (Mixture of Experts) neste repositório não é eficiente e foi escolhida para evitar kernels personalizados ao validar a precisão do modelo.

Download dos pesos

É possível baixar os pesos usando um cliente de torrent e o seguinte link: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Licença

O código incluído nesta versão e os pesos do Grok-1 são licenciados sob a licença Apache 2.0.
A licença se aplica apenas aos arquivos-fonte deste repositório e aos pesos do modelo Grok-1.

Opinião do GN⁺

O Grok-1 é um modelo com um número massivo de parâmetros e oferece uma boa oportunidade para pesquisadores e engenheiros de machine learning experimentarem usando recursos de computação de alto desempenho.
Ao usar a licença open source Apache 2.0, a comunidade pode usar, modificar e distribuir o modelo livremente, o que pode incentivar colaboração e inovação.
Como o modelo é extremamente grande, experimentá-lo na prática exige recursos computacionais consideráveis, o que pode limitar a acessibilidade.
A implementação ineficiente da camada MoE pode ser útil para fins de pesquisa, mas para aplicação em produtos ou serviços reais será necessário buscar uma implementação otimizada.
Outros projetos open source com funcionalidades semelhantes incluem o TensorFlow, do Google, e o PyTorch, do Facebook, que também podem ser usados para experimentar modelos de grande escala.

1 comentários

GN⁺ 2024-03-18

Comentários do Hacker News

O modelo 8x86B parece ser o maior modelo aberto até agora. Seria interessante descobrir com quantos tokens esse modelo foi treinado.
- É um modelo base treinado com grandes volumes de dados textuais e não foi ajustado finamente para tarefas específicas.
- A versão mostrada previamente no Twitter provavelmente era um modelo ajustado por instruções, que se comporta de forma diferente dos pesos brutos.
Por que alguém escolheria usar esse modelo em vez de alternativas open source como o Mistral?
Este é o primeiro grande modelo a oferecer suporte nativo a FP8? Parece que isso seria uma grande vantagem quando o hardware dá suporte, então fico curioso por que ninguém fez isso até agora.
Quais idiomas esse modelo suporta?
Post do blog: Grok-OS
- Dos 314B parâmetros, 86B são ativados.
- 2 de 8 especialistas de mistura de especialistas são ativados.
- Os pesos e a arquitetura estão sob a licença Apache 2.0.
Post do blog anunciado no ano passado: Grok
- Inclui benchmarks comparando com Claude 2, GPT-3.5 e GPT-4.
- Tem capacidades semelhantes às de GPT-3.5, Mixtral e Qwen-1.5-72B, mas é muito maior que os modelos de pesos abertos.
Em termos de número de parâmetros e mistura de especialistas, quando chegaremos ao limite superior ou ao ponto de retornos decrescentes?
Existe um model card em algum lugar? Quero saber com o que esse modelo foi treinado.
Um ponto sutil: Musk disse "open source", mas no fim recebemos "pesos abertos" (ainda assim, sou muito grato, porque é melhor do que nada).
O outro repositório é apenas um fork do Qdrant.

xAI divulga os pesos do modelo base e a arquitetura de rede do LLM Grok-1

Como usar o repositório do Grok-1

Download dos pesos

Licença

Opinião do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News