Para executar o modelo, é possível usar ferramentas como Ollama, Llama.cpp ou bibliotecas Python. Também é possível carregar cerca de metade do modelo na RAM.
Para comparar o desempenho do modelo, é possível usar benchmarks não oficiais fornecidos pelo Hugging Face. No entanto, é preciso observar que isso se refere ao modelo base e há diferenças em relação ao modelo instruct ajustado por fine-tuning usado em chats reais.
Se o modelo Mixtral-8x22B-v0.1 mostrar um desempenho tão bom quanto o antigo Mixtral 8x7B, será um modelo muito promissor.
Há interesse em saber se o ChatGPT 4 poderá voltar ao nível de desempenho que no início era considerado "funciona como mágica". Existe frustração com a queda de desempenho em nome da correção política.
Parece que, antes do lançamento do Llama3, todos estão competindo para lançar o melhor modelo pequeno.
Com quantização de 4 bits, são necessários 85 GB de VRAM, então é possível rodá-lo tranquilamente com 4 GPUs de consumidor de 24 GB. Ainda sobra espaço para otimização do cache KV.
É estranho que, mesmo mais de um dia após os pesos do modelo terem sido divulgados, a Mistral ainda não tenha feito um anúncio oficial nem publicado um model card, e que ele também não possa ser usado na própria plataforma da Mistral.
1 comentários
Opiniões no Hacker News