Modelo Mistral “Mixtral” 8x7B 32k [ímã]

(twitter.com/MistralAI)

2 pontos por GN⁺ 2023-12-09 | 1 comentários | Compartilhar no WhatsApp

1 comentários

GN⁺ 2023-12-09

Comentários do Hacker News

Em outras notícias sobre LLMs, modelos Mistral/Yi fine-tunados com uma nova técnica chamada neural alignment, ainda não documentada, estão ficando muito à frente dos outros modelos no leaderboard do Hugging Face
O 7B está “vencendo” a maioria dos modelos de 70B, e o 34B que está em testes também parece muito bom
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
Em teoria, essa técnica também pode ser aplicada ao Mistral MoE, então se ele tiver um salto parecido com o Mistral 7B normal, e o próprio Mistral MoE já for bom, o resultado pode ser um modelo bem assustador
Talvez este seja o ponto de virada em que um modelo open source capaz de rodar em desktop começa de fato a encostar no GPT-4
- Testei a versão 7B e ela realmente parece diferente das que usei antes
  Conseguiu explicar um arquivo Docker Compose e também gerou um componente simples de aplicação em Vue
  Quando perguntei mais um pouco com exemplos, ela pareceu estranhamente consistente e focada ao longo de toda a conversa, além de distinguir bem quando eu estava mudando de assunto e quando estava me referindo ao contexto anterior, mesmo sem limpar o contexto
  Em especial, quando perguntei “What does following mean [conteúdo do docker compose]”, o cybertron-7b respondeu algo como “Na configuração YAML fornecida, ‘following’ se refere à especificação de dependências”, citando exatamente a minha expressão entre aspas; é a primeira vez que vejo um modelo citar com tanta precisão uma formulação da conversa desse jeito
- Fiquei curioso e fiz um ollama modelfile com a versão GGUF do TheBloke[1] para a menor variante, e para um modelo tão pequeno ele realmente passa bastante uma sensação de GPT-4
  Parece mais consistente do que o openhermes2.5-mistral, que eu vinha usando antes como LLM local
  Se você tiver o ollama instalado, pode testar com ollama run nollama/una-cybertron-7b-v2
  [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
- Sim. O UNA parece conseguir alinhar o MoE em várias camadas, especialistas e praticamente em qualquer parte da rede neural
  O Xaberius 34B v1 “BETA” é o rei, mas literalmente ainda é só beta
  Agora vou focar no Mixtral, e esse estilo modular parece presente de Natal. Obrigado ao @mistral por abrir o laboratório
- A esta altura, benchmark de LLM não é, na melhor das hipóteses, sem sentido e, na pior, quase uma mentira?
- Sim. A Mistral não parece se importar muito em castrar e enfraquecer o modelo com ‘treinamento de segurança’
  Por isso, ela pode ter desempenho por parâmetro muito melhor e também ser mais controlável do que Anthropic/Google/OpenAI
Interpretação do Andrej Karpathy:
O novo LLM com pesos abertos da @MistralAI
Segundo o params.json, hidden_dim / dim = 14336/4096 => expansão MLP de 3.5X, n_heads / n_kv_heads = 32/8 => multiquery de 4X, "moe" => mixture of experts 8X top 2
O código relacionado aparentemente é este:
https://github.com/mistralai/megablocks-public
Curiosamente, não há aquele vídeo de lançamento excessivamente ensaiado falando da “revolução da IA”
Se você está se perguntando por que há uma atividade de IA tão fora do normal agora, é porque a NeurIPS, a maior conferência de deep learning, é na próxima semana
https://twitter.com/karpathy/status/1733181701361451130
- Se a NeurIPS é na próxima semana, então dá para esperar grandes anúncios como novas arquiteturas ou modelos de várias empresas? Não estou acostumado com a cultura de conferências de pesquisa e fiquei curioso
- hidden_dim / dim = 14336/4096 => expansão MLP de 3.5X e n_heads / n_kv_heads = 32/8 => 4X são ambos exatamente iguais ao Mistral-7B existente
- O EMNLP 2023 também está acontecendo agora, então os anúncios estão se concentrando nisso
A Mistral não parece se esforçar muito para explicar, mas esse jeito transmite muito mais confiança no produto do que o anúncio do Gemini do Google, todo polido, corporativo e sem alma
- Publicar os pesos é melhor do que documentação
  Lembrei de um funcionário do Google se gabando de que divulgaram os pesos do Gemini, e ainda por cima só do Gemini pequeno para mobile, como se isso fosse uma atitude mais generosa do que a das outras empresas
Será que esse anúncio grandioso é mesmo necessário? Dá para fazer do jeito dos anos 90: https://twitter.com/erhartford/status/1733159666417545641/ph...
- Parece uma abordagem muito mais ousada e confiante do que soltar uma página ou vídeo de marketing obviamente manipulados e irreais
Parece ser mixture of experts (MoE), e o params.json é o seguinte
{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }
- Nesse contexto, o que exatamente significa especialista?
- Não vejo código ali; qual runtime consegue carregar esses pesos?
As empresas não têm exatamente objetivos parecidos, mas comparar esse anúncio do modelo com o anúncio do Gemini do Google dois dias antes é bem engraçado
Isso contrasta fortemente com a abordagem do Google no começo desta semana de “ter só a demo e não ter o modelo”
Parece ter sido treinado com o Megablocks de Stanford: https://github.com/mistralai/megablocks-public
Pode ser controverso, mas acho que o Mistral 7B é de fato o estado da arte dos LLMs
O ChatGPT 4 realmente é impressionante, e eu assino desde o primeiro dia, mas roda em um enorme e distante server farm e é praticamente uma caixa-preta
O Mistral é pequeno e, pelo tamanho, surpreendentemente consistente e útil tanto em perguntas gerais quanto em código, sem censura, e representa um salto difícil de acreditar que seria possível em apenas um ano
Dá para rodar em um MacBook Air a 12 tok/s, e estou ansioso para testar em um desktop
- Dentro do que é viável rodar em um MacBook Air, é estado da arte, mas não no universo inteiro dos LLMs nem no open source como um todo
  Yi 34B e Llama2 70B ainda se saem melhor
- Se 50% da informação consumida na internet foi criada nas últimas 24 horas, modelos pequenos podem ter uma vantagem bem grande sobre modelos grandes
  Se for possível continuar retreinando ou fazer fine-tuning de um LLM ou SmallLM toda semana ou todo dia para refletir informações mais recentes, modelos antigos treinados há 1 ou 2 anos terão dificuldade para acompanhar
  Não sei sobre a licença, mas a OpenAI poderia colocar um modelo pequeno como o Mistral7B na pilha do GPT, retreiná-lo do zero toda semana e depois cobrar o mesmo preço do GPT-4
  Mesmo com desempenho inferior, certamente parece haver usuários que prefeririam um modelo mais atualizado
- Concordo. O Mistral 7B é realmente surpreendentemente bom
  Versões ajustadas, como a da Intel ou o Berkeley Starling, dão a sensação de chegar bem perto do gpt3.5T, apesar de serem só 7B
  Eu estava realmente esperando um Mistral 13B, mas não sei se esse MoE vai rodar em uma 3090 de 24 GB
  Espero que quantização, offloading e técnicas futuras tornem isso viável
- 12 tok/s em um MacBook Air parece um pouco baixo
  Você está usando aceleração de GPU Metal no llama.cpp? Não tenho MacBook, mas pelos benchmarks do llama.cpp eu achava que com aceleração por GPU dava para chegar a quase 30 tok/s
- É isso mesmo. Pelo menos parece estar no nível do llama2 13b
  Se existisse um mistral 70b e ele fosse melhor que o llama2 70b na mesma proporção em que o 7b melhorou em relação ao llama2 no tamanho 7b, certamente estaria em um nível parecido com o gpt3.5
Agora já existe uma versão do Hugging Face funcionando experimentalmente: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
O Google faz demo falsa, a Mistral resolve com um único link magnético

Modelo Mistral “Mixtral” 8x7B 32k [ímã]

Leituras relacionadas

1 comentários

Comentários do Hacker News