Fico curioso sobre a forma mais fácil de rodar esse modelo quando se tem os pesos e o hardware
Mesmo fazendo offload de metade do modelo para a RAM, queria saber com qual ferramenta devo carregá-lo: Ollama, Llama.cpp, ou se basta importá-lo por uma biblioteca Python
Também fico curioso sobre qual seria uma boa forma de fazer benchmark para comparar com outro modelo, e se há ferramentas prontas para isso
O método llamafile parece ser o melhor
O binário funciona pela linha de comando ou sobe um pequeno servidor web
O llamafile oferece uma build do Mixtral-8x7B-Instruct, então este modelo provavelmente também pode ser empacotado, possivelmente em formato quantizado
É preciso confirmar com alguém que conheça melhor o ecossistema, mas parece que o novo modelo também poderia rodar diretamente no llamafile https://github.com/Mozilla-Ocho/llamafile
Para testar LLMs em um MacBook, o LM Studio é excelente: https://lmstudio.ai/
Dentro do app, é muito fácil buscar modelos novos do Hugging Face e testá-los na hora
Há um usuário chamado The Bloke no Hugging Face que publica modelos pré-quantizados pouco depois de sair o modelo em tamanho completo
É só ficar de olho nessa página e torcer para que o modelo de 4 bits caiba na GPU
Imagino que ele já esteja trabalhando nisso
8x22B, hein? Se isto for tão bom quanto o Mixtral 8x7B, vamos entrar em uma fase realmente interessante
Ouvi dizer que o Command R foi o primeiro open source a superar o GPT-4 em benchmarks
Como já existe o 8x7B, não haveria motivo para querer outro 8x7B, então deve significar que é melhor, certo?
Fugindo um pouco do tema, fico curioso se já voltamos ao nível de desempenho do ChatGPT 4 da época em que as pessoas diziam que ele parecia mágica
Refiro-me ao padrão de antes de o desempenho cair bastante enquanto o tornavam mais politicamente correto
Testei vários LLMs em um MacBook e, comparados a qualquer ponto do GPT-4, ainda acho que todos estão muito atrás
Ainda assim, há muitos modelos no nível do GPT-3, e também há bastante modelos ajustados para tarefas específicas
A grande lacuna nos modelos abertos é o suporte a idiomas
Só vi um modelo que produz resultados aceitáveis em norueguês, e isso nunca foi um problema no GPT-4
Entre os modelos abertos, acho que pelo menos já chegaram ao desempenho do lançamento inicial do ChatGPT 4
É uma corrida para cada um lançar seu melhor modelo pequeno antes de o Llama 3 sair?
262GB não é exatamente pequeno
Ainda assim, se todos obtiverem resultados piores que o Llama 3, pode ficar constrangedor lançar depois, então parece que estão soltando agora
Considerando os rumores de que o Llama 3 sai nas próximas duas semanas, isso parece bem plausível
O Mixtral 8x7B foi bom de usar, e estou ansioso para testar este modelo também
Seria bom se o GPT-4 estivesse ali
Esse ainda é o modelo a ser superado
A quantização em 4 bits deve exigir 85GB de VRAM, então caberia bem em 4 GPUs de consumidor de 24GB, com ainda alguma folga para otimização do cache KV
Em 4 bits, pode usar menos que isso
Porque há uma quantidade considerável de parâmetros compartilhados entre os modelos especialistas
Mas, se não for rodar com tamanho de batch 1, pode ser mais sofrido do que uma configuração com 8 GPUs
É quase certo que a maioria ou todos os especialistas serão ativados dentro do batch
A quantização em 2 bits do Mixtral 8x7B foi utilizável para alguns casos até em uma GPU de 8GB
Fico curioso para ver como este novo modelo se comporta em configurações com GPUs baratas na faixa de 8 a 16GB
É muito importante notar que este é um modelo-base, não um modelo instrucional
O que é útil para chat são os modelos com fine-tuning de instruções
Fico curioso sobre como é usar diretamente um modelo-base poderoso
Seria simplesmente algo que completa o texto do prompt como uma continuação?
Saiu exatamente no momento em que o Llama 3 está sendo divulgado
No mesmo dia, o Google Gemini Pro lançou algo próximo de um acesso multimodal aberto com contexto longo, e a OpenAI também atualizou o GPT-4-Turbo; foi um grande dia, cheio de notícias
1 comentários
Opiniões no Hacker News
Mesmo fazendo offload de metade do modelo para a RAM, queria saber com qual ferramenta devo carregá-lo: Ollama, Llama.cpp, ou se basta importá-lo por uma biblioteca Python
Também fico curioso sobre qual seria uma boa forma de fazer benchmark para comparar com outro modelo, e se há ferramentas prontas para isso
O binário funciona pela linha de comando ou sobe um pequeno servidor web
O llamafile oferece uma build do Mixtral-8x7B-Instruct, então este modelo provavelmente também pode ser empacotado, possivelmente em formato quantizado
É preciso confirmar com alguém que conheça melhor o ecossistema, mas parece que o novo modelo também poderia rodar diretamente no llamafile
https://github.com/Mozilla-Ocho/llamafile
Dentro do app, é muito fácil buscar modelos novos do Hugging Face e testá-los na hora
É só ficar de olho nessa página e torcer para que o modelo de 4 bits caiba na GPU
Imagino que ele já esteja trabalhando nisso
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
É o post que usa um link para o tweet em vez do perfil:
https://twitter.com/MistralAI/status/1777869263778291896
Refiro-me ao padrão de antes de o desempenho cair bastante enquanto o tornavam mais politicamente correto
Ainda assim, há muitos modelos no nível do GPT-3, e também há bastante modelos ajustados para tarefas específicas
A grande lacuna nos modelos abertos é o suporte a idiomas
Só vi um modelo que produz resultados aceitáveis em norueguês, e isso nunca foi um problema no GPT-4
Ainda assim, se todos obtiverem resultados piores que o Llama 3, pode ficar constrangedor lançar depois, então parece que estão soltando agora
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
Esse ainda é o modelo a ser superado
Porque há uma quantidade considerável de parâmetros compartilhados entre os modelos especialistas
Mas, se não for rodar com tamanho de batch 1, pode ser mais sofrido do que uma configuração com 8 GPUs
É quase certo que a maioria ou todos os especialistas serão ativados dentro do batch
Fico curioso para ver como este novo modelo se comporta em configurações com GPUs baratas na faixa de 8 a 16GB
O que é útil para chat são os modelos com fine-tuning de instruções
Seria simplesmente algo que completa o texto do prompt como uma continuação?