Mistral AI lança novo modelo MOE 8x22B

(twitter.com/MistralAI)

1 pontos por GN⁺ 2024-04-12 | 1 comentários | Compartilhar no WhatsApp

1 comentários

GN⁺ 2024-04-12

Opiniões no Hacker News

Fico curioso sobre a forma mais fácil de rodar esse modelo quando se tem os pesos e o hardware
Mesmo fazendo offload de metade do modelo para a RAM, queria saber com qual ferramenta devo carregá-lo: Ollama, Llama.cpp, ou se basta importá-lo por uma biblioteca Python
Também fico curioso sobre qual seria uma boa forma de fazer benchmark para comparar com outro modelo, e se há ferramentas prontas para isso
- O método llamafile parece ser o melhor
  O binário funciona pela linha de comando ou sobe um pequeno servidor web
  O llamafile oferece uma build do Mixtral-8x7B-Instruct, então este modelo provavelmente também pode ser empacotado, possivelmente em formato quantizado
  É preciso confirmar com alguém que conheça melhor o ecossistema, mas parece que o novo modelo também poderia rodar diretamente no llamafile
  https://github.com/Mozilla-Ocho/llamafile
- A forma mais fácil é rodar com vllm(https://github.com/vllm-project/vllm) em algo como duas A100, e os benchmarks podem ser feitos com lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
- Para testar LLMs em um MacBook, o LM Studio é excelente: https://lmstudio.ai/
  Dentro do app, é muito fácil buscar modelos novos do Hugging Face e testá-los na hora
- Há um usuário chamado The Bloke no Hugging Face que publica modelos pré-quantizados pouco depois de sair o modelo em tamanho completo
  É só ficar de olho nessa página e torcer para que o modelo de 4 bits caiba na GPU
  Imagino que ele já esteja trabalhando nisso
- Dá para testar pela Together aqui:
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
O post duplicado está aqui: https://news.ycombinator.com/item?id=39986047
É o post que usa um link para o tweet em vez do perfil:
https://twitter.com/MistralAI/status/1777869263778291896
8x22B, hein? Se isto for tão bom quanto o Mixtral 8x7B, vamos entrar em uma fase realmente interessante
- Ouvi dizer que o Command R foi o primeiro open source a superar o GPT-4 em benchmarks
- Como já existe o 8x7B, não haveria motivo para querer outro 8x7B, então deve significar que é melhor, certo?
Fugindo um pouco do tema, fico curioso se já voltamos ao nível de desempenho do ChatGPT 4 da época em que as pessoas diziam que ele parecia mágica
Refiro-me ao padrão de antes de o desempenho cair bastante enquanto o tornavam mais politicamente correto
- Testei vários LLMs em um MacBook e, comparados a qualquer ponto do GPT-4, ainda acho que todos estão muito atrás
  Ainda assim, há muitos modelos no nível do GPT-3, e também há bastante modelos ajustados para tarefas específicas
  A grande lacuna nos modelos abertos é o suporte a idiomas
  Só vi um modelo que produz resultados aceitáveis em norueguês, e isso nunca foi um problema no GPT-4
- Entre os modelos abertos, acho que pelo menos já chegaram ao desempenho do lançamento inicial do ChatGPT 4
É uma corrida para cada um lançar seu melhor modelo pequeno antes de o Llama 3 sair?
- 262GB não é exatamente pequeno
  Ainda assim, se todos obtiverem resultados piores que o Llama 3, pode ficar constrangedor lançar depois, então parece que estão soltando agora
- Considerando os rumores de que o Llama 3 sai nas próximas duas semanas, isso parece bem plausível
O Mixtral 8x7B foi bom de usar, e estou ansioso para testar este modelo também
Há benchmarks não oficiais aqui:
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- Seria bom se o GPT-4 estivesse ali
  Esse ainda é o modelo a ser superado
A quantização em 4 bits deve exigir 85GB de VRAM, então caberia bem em 4 GPUs de consumidor de 24GB, com ainda alguma folga para otimização do cache KV
- Em 4 bits, pode usar menos que isso
  Porque há uma quantidade considerável de parâmetros compartilhados entre os modelos especialistas
  Mas, se não for rodar com tamanho de batch 1, pode ser mais sofrido do que uma configuração com 8 GPUs
  É quase certo que a maioria ou todos os especialistas serão ativados dentro do batch
- A quantização em 2 bits do Mixtral 8x7B foi utilizável para alguns casos até em uma GPU de 8GB
  Fico curioso para ver como este novo modelo se comporta em configurações com GPUs baratas na faixa de 8 a 16GB
É muito importante notar que este é um modelo-base, não um modelo instrucional
O que é útil para chat são os modelos com fine-tuning de instruções
- Fico curioso sobre como é usar diretamente um modelo-base poderoso
  Seria simplesmente algo que completa o texto do prompt como uma continuação?
Saiu exatamente no momento em que o Llama 3 está sendo divulgado
- No mesmo dia, o Google Gemini Pro lançou algo próximo de um acesso multimodal aberto com contexto longo, e a OpenAI também atualizou o GPT-4-Turbo; foi um grande dia, cheio de notícias

Mistral AI lança novo modelo MOE 8x22B

Leituras relacionadas

1 comentários

Opiniões no Hacker News