6 pontos por GN⁺ 2024-03-18 | 1 comentários | Compartilhar no WhatsApp
  • Lançamento dos pesos e da arquitetura de um modelo Mixture-of-Experts com 314B (314 bilhões) de parâmetros
  • Modelo base bruto da fase de pré-treinamento do Grok-1, concluída em outubro de 2023
    • Isso significa que o modelo não foi ajustado finamente para tarefas específicas, como conversação
  • Detalhes do modelo
    • Modelo base treinado com grande volume de dados de texto, sem ajuste fino para tarefas específicas
    • Modelo Mixture of Experts de 314B parâmetros, com 25% dos pesos ativados para cada token fornecido
    • Treinado do zero pela xAI em outubro de 2023 usando uma stack de treinamento personalizada sobre JAX e Rust

Como usar o repositório do Grok-1

  • O repositório do Grok-1, que inclui código de exemplo em JAX, é usado para carregar e executar o modelo open-weight Grok-1.
  • Baixe o checkpoint e coloque o diretório ckpt-0 dentro do diretório checkpoint; depois execute pip install -r requirements.txt e python run.py para testar o código.
  • O script carrega o checkpoint e gera amostras do modelo para entradas de teste.
  • Como o modelo é extremamente grande (314B parâmetros), é necessário um computador com memória GPU suficiente.
  • A implementação da camada MoE (Mixture of Experts) neste repositório não é eficiente e foi escolhida para evitar kernels personalizados ao validar a precisão do modelo.

Download dos pesos

  • É possível baixar os pesos usando um cliente de torrent e o seguinte link: magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

Licença

  • O código incluído nesta versão e os pesos do Grok-1 são licenciados sob a licença Apache 2.0.
  • A licença se aplica apenas aos arquivos-fonte deste repositório e aos pesos do modelo Grok-1.

Opinião do GN⁺

  • O Grok-1 é um modelo com um número massivo de parâmetros e oferece uma boa oportunidade para pesquisadores e engenheiros de machine learning experimentarem usando recursos de computação de alto desempenho.
  • Ao usar a licença open source Apache 2.0, a comunidade pode usar, modificar e distribuir o modelo livremente, o que pode incentivar colaboração e inovação.
  • Como o modelo é extremamente grande, experimentá-lo na prática exige recursos computacionais consideráveis, o que pode limitar a acessibilidade.
  • A implementação ineficiente da camada MoE pode ser útil para fins de pesquisa, mas para aplicação em produtos ou serviços reais será necessário buscar uma implementação otimizada.
  • Outros projetos open source com funcionalidades semelhantes incluem o TensorFlow, do Google, e o PyTorch, do Facebook, que também podem ser usados para experimentar modelos de grande escala.

1 comentários

 
GN⁺ 2024-03-18
Comentários do Hacker News
  • O modelo 8x86B parece ser o maior modelo aberto até agora. Seria interessante descobrir com quantos tokens esse modelo foi treinado.

    • É um modelo base treinado com grandes volumes de dados textuais e não foi ajustado finamente para tarefas específicas.
    • A versão mostrada previamente no Twitter provavelmente era um modelo ajustado por instruções, que se comporta de forma diferente dos pesos brutos.
  • Por que alguém escolheria usar esse modelo em vez de alternativas open source como o Mistral?

  • Este é o primeiro grande modelo a oferecer suporte nativo a FP8? Parece que isso seria uma grande vantagem quando o hardware dá suporte, então fico curioso por que ninguém fez isso até agora.

  • Quais idiomas esse modelo suporta?

  • Post do blog: Grok-OS

    • Dos 314B parâmetros, 86B são ativados.
    • 2 de 8 especialistas de mistura de especialistas são ativados.
    • Os pesos e a arquitetura estão sob a licença Apache 2.0.
  • Post do blog anunciado no ano passado: Grok

    • Inclui benchmarks comparando com Claude 2, GPT-3.5 e GPT-4.
    • Tem capacidades semelhantes às de GPT-3.5, Mixtral e Qwen-1.5-72B, mas é muito maior que os modelos de pesos abertos.
  • Em termos de número de parâmetros e mistura de especialistas, quando chegaremos ao limite superior ou ao ponto de retornos decrescentes?

  • Existe um model card em algum lugar? Quero saber com o que esse modelo foi treinado.

  • Um ponto sutil: Musk disse "open source", mas no fim recebemos "pesos abertos" (ainda assim, sou muito grato, porque é melhor do que nada).

  • O outro repositório é apenas um fork do Qdrant.