Mistral 7B

(mistral.ai)

11 pontos por GN⁺ 2023-09-28 | 1 comentários | Compartilhar no WhatsApp

O modelo de linguagem mais poderoso até agora
Um modelo com 7.3B parâmetros que supera o Llama 2 13B em todos os benchmarks e o Llama 1 34B em muitos benchmarks
Usa Grouped-query attention (GQA) para inferência mais rápida e Sliding Window Attention (SWA) para processar sequências mais longas com custo menor
Licenciado sob Apache 2.0, pode ser usado sem restrições
Pode ser implantado em qualquer nuvem (AWS/GCP/Azure) usando o servidor de inferência vLLM e o SkyPilot, além de poder ser usado no HuggingFace
Pode ser ajustado com facilidade, e o modelo ajustado para chat supera o Llama 2 13B Chat

1 comentários

GN⁺ 2023-09-28

A Mistral é a primeira empresa a oferecer uma licença Apache para um modelo desta classe, ao contrário da Meta e da DeciLM.
Este modelo funciona bem em um MacBook Air M1 e é comparável ao GPT3.5.
Há uma pergunta sobre a possibilidade de usar uma "API de chamada de função" para lidar com dados estruturados como JSON.
Foram levantadas preocupações sobre o conjunto de dados usado no treinamento do modelo e a possibilidade de vazamento de benchmarks ter inflado os resultados.
O anúncio do modelo foi feito por meio do URI de um rastreador de torrent no Twitter.
Em testes de ferramentas de assistência de programação para LLMs, o Mistral não teve um desempenho tão bom quanto o CodeLlama e o GPT4.
O modelo funciona no FreeChat do macOS porque é compatível com o llama.cpp.
Há uma pergunta sobre por que os projetos parecem se padronizar em tamanhos específicos de parâmetros dentro de grandes faixas, como os modelos 7B.
Há pedidos por mais detalhes sobre o treinamento do modelo, os dados em que ele se baseia e onde foi treinado.
Houve um pedido para testar a contaminação de benchmarks no conjunto de treinamento.