11 pontos por GN⁺ 2023-09-28 | 1 comentários | Compartilhar no WhatsApp
  • O modelo de linguagem mais poderoso até agora
  • Um modelo com 7.3B parâmetros que supera o Llama 2 13B em todos os benchmarks e o Llama 1 34B em muitos benchmarks
  • Usa Grouped-query attention (GQA) para inferência mais rápida e Sliding Window Attention (SWA) para processar sequências mais longas com custo menor
  • Licenciado sob Apache 2.0, pode ser usado sem restrições
  • Pode ser implantado em qualquer nuvem (AWS/GCP/Azure) usando o servidor de inferência vLLM e o SkyPilot, além de poder ser usado no HuggingFace
  • Pode ser ajustado com facilidade, e o modelo ajustado para chat supera o Llama 2 13B Chat

1 comentários

 
GN⁺ 2023-09-28
Opiniões do Hacker News
  • A Mistral é a primeira empresa a oferecer uma licença Apache para um modelo desta classe, ao contrário da Meta e da DeciLM.
  • Este modelo funciona bem em um MacBook Air M1 e é comparável ao GPT3.5.
  • Há uma pergunta sobre a possibilidade de usar uma "API de chamada de função" para lidar com dados estruturados como JSON.
  • Foram levantadas preocupações sobre o conjunto de dados usado no treinamento do modelo e a possibilidade de vazamento de benchmarks ter inflado os resultados.
  • O anúncio do modelo foi feito por meio do URI de um rastreador de torrent no Twitter.
  • Em testes de ferramentas de assistência de programação para LLMs, o Mistral não teve um desempenho tão bom quanto o CodeLlama e o GPT4.
  • O modelo funciona no FreeChat do macOS porque é compatível com o llama.cpp.
  • Há uma pergunta sobre por que os projetos parecem se padronizar em tamanhos específicos de parâmetros dentro de grandes faixas, como os modelos 7B.
  • Há pedidos por mais detalhes sobre o treinamento do modelo, os dados em que ele se baseia e onde foi treinado.
  • Houve um pedido para testar a contaminação de benchmarks no conjunto de treinamento.