8 pontos por GN⁺ 2024-02-27 | 1 comentários | Compartilhar no WhatsApp
  • Mistral Large é um modelo de geração de texto de ponta, com capacidade de raciocínio de altíssimo nível
  • Pode executar tarefas complexas de raciocínio em vários idiomas e ser usado para compreensão de texto, transformação e geração de código
  • Mostra forte desempenho no benchmark MMLU e é o segundo modelo mais bem classificado do mundo geralmente disponível via API
    • 81,2%, atrás do GPT-4 com 86,4%; Claude 2 com 78,5%; Gemini Pro com 71,8%

Novos recursos e pontos fortes do Mistral Large

  • Fluente em nível nativo em inglês, francês, espanhol, alemão e italiano, oferecendo compreensão sutil de gramática e contexto cultural
  • Janela de contexto de 32K tokens permite recuperação precisa de informações em documentos grandes
  • A capacidade de seguir instruções com precisão permite que desenvolvedores projetem suas próprias políticas de moderação, sendo usada nas configurações de moderação em nível de sistema do le Chat
  • A funcionalidade de chamada de função é nativa, permitindo desenvolvimento de aplicações e modernização de stack tecnológica em escala junto com o modo de saída restrita implementado na la Plateforme

Modelos disponíveis no Azure por meio de parceria com a Microsoft

  • O objetivo da Mistral é democratizar IA de ponta e, para isso, oferece modelos abertos e comerciais no Azure
  • Os modelos da Mistral podem ser usados via La Plateforme e Azure, e também podem ser implantados diretamente no ambiente do usuário
  • La Plateforme é hospedada com segurança na infraestrutura europeia da Mistral, enquanto o Azure é oferecido por meio do Azure AI Studio e do Azure Machine Learning
  • A implantação própria permite acesso aos pesos do modelo para os casos de uso mais sensíveis, sendo possível ler casos de sucesso e entrar em contato com a equipe para mais informações

Capacidades do Mistral Large

  • Mistral Large mostra forte capacidade de raciocínio em benchmarks padrão quando comparado aos principais modelos LLM
  • Em capacidade multilíngue, o Mistral Large supera com folga o LLaMA 2 70B em francês, alemão, espanhol e italiano
  • Também apresenta desempenho de ponta em tarefas de código e matemática

Novo Mistral Small, otimizado para cargas de trabalho de baixa latência

  • Junto com o Mistral Large, foi lançado o novo modelo Mistral Small, otimizado para latência e custo
  • Mistral Small tem desempenho superior ao Mixtral 8x7B e menor latência, sendo uma solução intermediária refinada entre ofertas open-weight e modelos flagship
  • Mistral Small aproveita as mesmas inovações de ativação de RAG e chamada de função do Mistral Large
  • Oferece endpoints open-weight com preço competitivo e novos endpoints de modelo otimizados, proporcionando uma visão abrangente do trade-off entre desempenho e custo

Formato JSON e chamada de função

  • O modo de formato JSON força a saída do modelo de linguagem a ser um JSON válido
  • Com chamada de função, desenvolvedores podem conectar seus próprios conjuntos de ferramentas aos endpoints da Mistral, permitindo interações mais complexas com código interno, APIs ou bancos de dados
  • Chamada de função e formato JSON estão disponíveis apenas em mistral-small e mistral-large, e a formatação para todos os endpoints será adicionada em breve

Opinião do GN⁺

  • Mistral Large é um modelo de linguagem de IA com suporte multilíngue e capacidade avançada de raciocínio, e sua habilidade de executar tarefas complexas em vários idiomas chama especialmente a atenção.
  • O modelo tem potencial para competir com modelos existentes como o GPT-4, e o suporte a vários idiomas, em particular, amplia sua aplicabilidade no mercado global.
  • A parceria com o Azure oferece uma oportunidade para que os modelos da Mistral AI alcancem uma base de usuários mais ampla, reforçando a escalabilidade e a acessibilidade dos serviços de IA baseados em nuvem.
  • O lançamento de modelos otimizados como o Mistral Small pode ser uma opção atraente para empresas que precisam de soluções de IA com boa relação custo-benefício e baixa latência.
  • Os recursos de formato JSON e chamada de função facilitam a integração dos modelos de IA às aplicações dos desenvolvedores, aumentando a praticidade e a flexibilidade da tecnologia de IA.

1 comentários

 
GN⁺ 2024-02-27
Opiniões no Hacker News
  • A honestidade do material de marketing foi muito valorizada. Mostrar pontuações de benchmark inferiores às do produto líder de mercado parece melhor do que o Google usar benchmarks de forma seletiva.

  • Embora eles já tenham feito muita coisa, houve a opinião de que seria bom haver uma reafirmação da promessa de contribuir com a comunidade open source. Achavam que isso era uma parte importante da marca deles.

  • Depois do caso miqu, havia expectativa de que saíssem mais pesos abertos, mas parece que será preciso esperar para ver o resultado.

  • Atualização das mudanças: renomeação de endpoints da API e adição de endpoints de modelo, lançamento de novos modelos, atualização de modelos existentes e aviso de descontinuação futura.

  • Novos recursos da API: suporte a function calling e modo JSON nos modelos Mistral Small e Mistral Large.

  • La Plateforme: adição de um sistema de pagamentos com suporte a múltiplas moedas e introdução de recursos de plataforma para empresas.

  • Le Chat: lançamento de uma nova interface de chat para interagir facilmente com os modelos da Mistral.

  • O novo modelo foi adicionado ao plugin da ferramenta LLM CLI. Agora é possível usá-lo da seguinte forma.

  • Usei o Le Chat para resolver alguns problemas de programação que surgiram hoje, e ele deu respostas muito melhores do que o ChatGPT, incluindo o GPT-4. Não está claro se, como algumas pessoas sugerem, a qualidade do ChatGPT caiu por causa de redução de custos, mas, para esses poucos problemas, a qualidade das respostas da Mistral foi muito superior.

  • Eu não conhecia a existência do Le Chat. Queria um concorrente do ChatGPT usando a Mistral, e também gostei de colocarem "le" no começo do nome do produto.

  • No Azure, a Mistral é um pouco mais barata do que o GPT-4.

  • Fica a dúvida se toda a agitação em torno de pesos abertos já acabou e se tudo continuará fechado.

  • Há uma pergunta sobre não haver informação em lugar nenhum a respeito do tamanho em parâmetros, e se isso foi intencional ou se algo passou despercebido.

  • É como se existissem várias arquiteturas de CPU intercambiáveis. Sempre que um novo LLM é lançado, isso dá a sensação de que o monopólio diminui bastante, o que é animador. Mesmo sem modelos open source, a OpenAI já parece ter cumprido sua missão.