- Lançamento dos pesos e da arquitetura de um modelo Mixture-of-Experts com 314B (314 bilhões) de parâmetros
- Modelo base bruto da fase de pré-treinamento do Grok-1, concluída em outubro de 2023
- Isso significa que o modelo não foi ajustado finamente para tarefas específicas, como conversação
- Detalhes do modelo
- Modelo base treinado com grande volume de dados de texto, sem ajuste fino para tarefas específicas
- Modelo Mixture of Experts de 314B parâmetros, com 25% dos pesos ativados para cada token fornecido
- Treinado do zero pela xAI em outubro de 2023 usando uma stack de treinamento personalizada sobre JAX e Rust
Como usar o repositório do Grok-1
- O repositório do Grok-1, que inclui código de exemplo em JAX, é usado para carregar e executar o modelo open-weight Grok-1.
- Baixe o checkpoint e coloque o diretório
ckpt-0 dentro do diretório checkpoint; depois execute pip install -r requirements.txt e python run.py para testar o código.
- O script carrega o checkpoint e gera amostras do modelo para entradas de teste.
- Como o modelo é extremamente grande (314B parâmetros), é necessário um computador com memória GPU suficiente.
- A implementação da camada MoE (Mixture of Experts) neste repositório não é eficiente e foi escolhida para evitar kernels personalizados ao validar a precisão do modelo.
Download dos pesos
- É possível baixar os pesos usando um cliente de torrent e o seguinte link:
magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce
Licença
- O código incluído nesta versão e os pesos do Grok-1 são licenciados sob a licença Apache 2.0.
- A licença se aplica apenas aos arquivos-fonte deste repositório e aos pesos do modelo Grok-1.
Opinião do GN⁺
- O Grok-1 é um modelo com um número massivo de parâmetros e oferece uma boa oportunidade para pesquisadores e engenheiros de machine learning experimentarem usando recursos de computação de alto desempenho.
- Ao usar a licença open source Apache 2.0, a comunidade pode usar, modificar e distribuir o modelo livremente, o que pode incentivar colaboração e inovação.
- Como o modelo é extremamente grande, experimentá-lo na prática exige recursos computacionais consideráveis, o que pode limitar a acessibilidade.
- A implementação ineficiente da camada MoE pode ser útil para fins de pesquisa, mas para aplicação em produtos ou serviços reais será necessário buscar uma implementação otimizada.
- Outros projetos open source com funcionalidades semelhantes incluem o TensorFlow, do Google, e o PyTorch, do Facebook, que também podem ser usados para experimentar modelos de grande escala.
1 comentários
Comentários do Hacker News
O modelo 8x86B parece ser o maior modelo aberto até agora. Seria interessante descobrir com quantos tokens esse modelo foi treinado.
Por que alguém escolheria usar esse modelo em vez de alternativas open source como o Mistral?
Este é o primeiro grande modelo a oferecer suporte nativo a FP8? Parece que isso seria uma grande vantagem quando o hardware dá suporte, então fico curioso por que ninguém fez isso até agora.
Quais idiomas esse modelo suporta?
Post do blog: Grok-OS
Post do blog anunciado no ano passado: Grok
Em termos de número de parâmetros e mistura de especialistas, quando chegaremos ao limite superior ou ao ponto de retornos decrescentes?
Existe um model card em algum lugar? Quero saber com o que esse modelo foi treinado.
Um ponto sutil: Musk disse "open source", mas no fim recebemos "pesos abertos" (ainda assim, sou muito grato, porque é melhor do que nada).
O outro repositório é apenas um fork do Qdrant.