Lançamento do Mistral NeMo

(mistral.ai)

6 pontos por GN⁺ 2024-07-19 | 1 comentários | Compartilhar no WhatsApp

Lançamento do Mistral NeMo, um modelo de 12 bilhões de parâmetros desenvolvido em colaboração com a NVIDIA
Oferece uma grande janela de contexto de até 128k tokens
Desempenho de ponta na categoria em raciocínio, conhecimento de mundo e precisão de código
Usa arquitetura padrão, permitindo adoção fácil em sistemas que utilizam Mistral 7B
Divulgação dos checkpoints base pré-treinados e ajustados por instrução sob licença Apache 2.0 para incentivar a adoção por pesquisadores e empresas
Treinado com consciência de quantização, permitindo inferência FP8 sem perda de desempenho

Modelo multilíngue

Projetado para aplicações multilíngues globais
Treinado para chamada de funções e com uma grande janela de contexto
Especialmente forte em inglês, francês, alemão, espanhol, italiano, português, chinês, japonês, coreano, árabe e hindi
Tem como objetivo oferecer modelos de IA de última geração para usuários de todos os idiomas

Tekken, um tokenizador mais eficiente

Usa o novo tokenizador Tekken, baseado em Tiktoken
Comprime texto em linguagem natural e código-fonte em mais de 100 idiomas com mais eficiência do que o tokenizador SentencePiece
Cerca de 30% mais eficiente em código-fonte, chinês, italiano, francês, alemão, espanhol e russo
Em coreano e árabe, é respectivamente 2x e 3x mais eficiente
Em comparação com o tokenizador do Llama 3, apresenta melhor compressão em cerca de 85% dos idiomas

Fine-tuning por instrução

O Mistral NeMo passa por etapas avançadas de ajuste fino e alinhamento
Em comparação com o Mistral 7B, é muito superior em seguir instruções com precisão, raciocinar, lidar com conversas de múltiplos turnos e gerar código

1 comentários

GN⁺ 2024-07-19

Comentários do Hacker News

O Mistral NeMo é um modelo de 12B desenvolvido em colaboração com a NVIDIA, oferecendo uma grande janela de contexto de até 128k tokens
- Usa uma arquitetura padrão, o que facilita seu uso, e pode substituir com facilidade sistemas que usam o Mistral 7B
- Fornece checkpoints pré-treinados sob a licença Apache 2.0, incentivando a adoção por pesquisadores e empresas
- Permite inferência em FP8 sem perda de desempenho por meio de quantization awareness
O Mistral NeMo usa o novo tokenizador Tekken, treinado em mais de 100 idiomas, que comprime texto e código-fonte com mais eficiência do que o SentencePiece
- Foi levantada a dúvida de por que voltar ao SentencePiece, mesmo com o byte-pair encoding tendo se mostrado um método de codificação mais eficiente
Também há uma publicação no blog da NVIDIA sobre o Mistral NeMo
- Ele é empacotado como um microsserviço de inferência NVIDIA NIM, oferecendo inferência otimizada em desempenho por meio do mecanismo NVIDIA TensorRT-LLM
- Foi projetado para caber na memória das GPUs NVIDIA L40S, NVIDIA GeForce RTX 4090 e NVIDIA RTX 4500
- Foi treinado com o Megatron-LM usando 3.072 GPUs H100 80GB Tensor Core
Modelos de grande porte estão sendo lançados rapidamente, o que sugere que as empresas descobriram como escalar processos escaláveis
- Foi levantada a dúvida se publicar modelos no HuggingFace constitui um negócio
- O download dos arquivos do modelo tem cerca de 25GB, e trata-se de um modelo quantizado em 8fp
Há opiniões de que a experiência de se cadastrar no NVIDIA Enterprise para testar a versão empacotada do "NIM" é inconveniente
- Há quem ache melhor poder baixar livremente os arquivos do modelo
- Existe insatisfação com o fato de a NVIDIA exigir um processo complicado, apesar de já ter um monopólio de hardware
Há a opinião de que, se a Mistral realmente leva a sério o avanço do open source, deveria compartilhar o corpus usado no treinamento do modelo
- Também foi levantada a dúvida sobre por que uma versão GGUF não fica pronta já no dia do lançamento
Há perguntas sobre se treinar em vários idiomas oferece "crossover"
- Existe curiosidade sobre se o que foi treinado em alemão pode ser aproveitado ao responder a prompts em inglês
Há pouca compreensão sobre o modelo de negócios de lançar gratuitamente modelos open source de IA generativa
- Foi levantada a dúvida sobre por que disponibilizar gratuitamente um modelo treinado com 3.072 H100s

Lançamento do Mistral NeMo

Modelo multilíngue

Tekken, um tokenizador mais eficiente

Fine-tuning por instrução

Links

Leituras relacionadas

1 comentários

Comentários do Hacker News