6 pontos por GN⁺ 2024-07-19 | 1 comentários | Compartilhar no WhatsApp
  • Lançamento do Mistral NeMo, um modelo de 12 bilhões de parâmetros desenvolvido em colaboração com a NVIDIA
  • Oferece uma grande janela de contexto de até 128k tokens
  • Desempenho de ponta na categoria em raciocínio, conhecimento de mundo e precisão de código
  • Usa arquitetura padrão, permitindo adoção fácil em sistemas que utilizam Mistral 7B
  • Divulgação dos checkpoints base pré-treinados e ajustados por instrução sob licença Apache 2.0 para incentivar a adoção por pesquisadores e empresas
  • Treinado com consciência de quantização, permitindo inferência FP8 sem perda de desempenho

Modelo multilíngue

  • Projetado para aplicações multilíngues globais
  • Treinado para chamada de funções e com uma grande janela de contexto
  • Especialmente forte em inglês, francês, alemão, espanhol, italiano, português, chinês, japonês, coreano, árabe e hindi
  • Tem como objetivo oferecer modelos de IA de última geração para usuários de todos os idiomas

Tekken, um tokenizador mais eficiente

  • Usa o novo tokenizador Tekken, baseado em Tiktoken
  • Comprime texto em linguagem natural e código-fonte em mais de 100 idiomas com mais eficiência do que o tokenizador SentencePiece
  • Cerca de 30% mais eficiente em código-fonte, chinês, italiano, francês, alemão, espanhol e russo
  • Em coreano e árabe, é respectivamente 2x e 3x mais eficiente
  • Em comparação com o tokenizador do Llama 3, apresenta melhor compressão em cerca de 85% dos idiomas

Fine-tuning por instrução

  • O Mistral NeMo passa por etapas avançadas de ajuste fino e alinhamento
  • Em comparação com o Mistral 7B, é muito superior em seguir instruções com precisão, raciocinar, lidar com conversas de múltiplos turnos e gerar código

Links

  • Os pesos dos modelos base e de instrução estão hospedados no HuggingFace
  • É possível testar o Mistral NeMo com mistral-inference e ajustá-lo com mistral-finetune
  • Empacotado como microserviço de inferência NVIDIA NIM e disponível em ai.nvidia.com

1 comentários

 
GN⁺ 2024-07-19
Comentários do Hacker News
  • O Mistral NeMo é um modelo de 12B desenvolvido em colaboração com a NVIDIA, oferecendo uma grande janela de contexto de até 128k tokens

    • Usa uma arquitetura padrão, o que facilita seu uso, e pode substituir com facilidade sistemas que usam o Mistral 7B
    • Fornece checkpoints pré-treinados sob a licença Apache 2.0, incentivando a adoção por pesquisadores e empresas
    • Permite inferência em FP8 sem perda de desempenho por meio de quantization awareness
  • O Mistral NeMo usa o novo tokenizador Tekken, treinado em mais de 100 idiomas, que comprime texto e código-fonte com mais eficiência do que o SentencePiece

    • Foi levantada a dúvida de por que voltar ao SentencePiece, mesmo com o byte-pair encoding tendo se mostrado um método de codificação mais eficiente
  • Também há uma publicação no blog da NVIDIA sobre o Mistral NeMo

    • Ele é empacotado como um microsserviço de inferência NVIDIA NIM, oferecendo inferência otimizada em desempenho por meio do mecanismo NVIDIA TensorRT-LLM
    • Foi projetado para caber na memória das GPUs NVIDIA L40S, NVIDIA GeForce RTX 4090 e NVIDIA RTX 4500
    • Foi treinado com o Megatron-LM usando 3.072 GPUs H100 80GB Tensor Core
  • Modelos de grande porte estão sendo lançados rapidamente, o que sugere que as empresas descobriram como escalar processos escaláveis

    • Foi levantada a dúvida se publicar modelos no HuggingFace constitui um negócio
    • O download dos arquivos do modelo tem cerca de 25GB, e trata-se de um modelo quantizado em 8fp
  • Há opiniões de que a experiência de se cadastrar no NVIDIA Enterprise para testar a versão empacotada do "NIM" é inconveniente

    • Há quem ache melhor poder baixar livremente os arquivos do modelo
    • Existe insatisfação com o fato de a NVIDIA exigir um processo complicado, apesar de já ter um monopólio de hardware
  • Há a opinião de que, se a Mistral realmente leva a sério o avanço do open source, deveria compartilhar o corpus usado no treinamento do modelo

    • Também foi levantada a dúvida sobre por que uma versão GGUF não fica pronta já no dia do lançamento
  • Há perguntas sobre se treinar em vários idiomas oferece "crossover"

    • Existe curiosidade sobre se o que foi treinado em alemão pode ser aproveitado ao responder a prompts em inglês
  • Há pouca compreensão sobre o modelo de negócios de lançar gratuitamente modelos open source de IA generativa

    • Foi levantada a dúvida sobre por que disponibilizar gratuitamente um modelo treinado com 3.072 H100s