Lançamento do modelo Mistral Large

(mistral.ai)

8 pontos por GN⁺ 2024-02-27 | 1 comentários | Compartilhar no WhatsApp

Mistral Large é um modelo de geração de texto de ponta, com capacidade de raciocínio de altíssimo nível
Pode executar tarefas complexas de raciocínio em vários idiomas e ser usado para compreensão de texto, transformação e geração de código
Mostra forte desempenho no benchmark MMLU e é o segundo modelo mais bem classificado do mundo geralmente disponível via API
- 81,2%, atrás do GPT-4 com 86,4%; Claude 2 com 78,5%; Gemini Pro com 71,8%

Novos recursos e pontos fortes do Mistral Large

Fluente em nível nativo em inglês, francês, espanhol, alemão e italiano, oferecendo compreensão sutil de gramática e contexto cultural
Janela de contexto de 32K tokens permite recuperação precisa de informações em documentos grandes
A capacidade de seguir instruções com precisão permite que desenvolvedores projetem suas próprias políticas de moderação, sendo usada nas configurações de moderação em nível de sistema do le Chat
A funcionalidade de chamada de função é nativa, permitindo desenvolvimento de aplicações e modernização de stack tecnológica em escala junto com o modo de saída restrita implementado na la Plateforme

Modelos disponíveis no Azure por meio de parceria com a Microsoft

O objetivo da Mistral é democratizar IA de ponta e, para isso, oferece modelos abertos e comerciais no Azure
Os modelos da Mistral podem ser usados via La Plateforme e Azure, e também podem ser implantados diretamente no ambiente do usuário
La Plateforme é hospedada com segurança na infraestrutura europeia da Mistral, enquanto o Azure é oferecido por meio do Azure AI Studio e do Azure Machine Learning
A implantação própria permite acesso aos pesos do modelo para os casos de uso mais sensíveis, sendo possível ler casos de sucesso e entrar em contato com a equipe para mais informações

Capacidades do Mistral Large

Mistral Large mostra forte capacidade de raciocínio em benchmarks padrão quando comparado aos principais modelos LLM
Em capacidade multilíngue, o Mistral Large supera com folga o LLaMA 2 70B em francês, alemão, espanhol e italiano
Também apresenta desempenho de ponta em tarefas de código e matemática

Novo Mistral Small, otimizado para cargas de trabalho de baixa latência

Junto com o Mistral Large, foi lançado o novo modelo Mistral Small, otimizado para latência e custo
Mistral Small tem desempenho superior ao Mixtral 8x7B e menor latência, sendo uma solução intermediária refinada entre ofertas open-weight e modelos flagship
Mistral Small aproveita as mesmas inovações de ativação de RAG e chamada de função do Mistral Large
Oferece endpoints open-weight com preço competitivo e novos endpoints de modelo otimizados, proporcionando uma visão abrangente do trade-off entre desempenho e custo

Formato JSON e chamada de função

O modo de formato JSON força a saída do modelo de linguagem a ser um JSON válido
Com chamada de função, desenvolvedores podem conectar seus próprios conjuntos de ferramentas aos endpoints da Mistral, permitindo interações mais complexas com código interno, APIs ou bancos de dados
Chamada de função e formato JSON estão disponíveis apenas em mistral-small e mistral-large, e a formatação para todos os endpoints será adicionada em breve

Opinião do GN⁺

Mistral Large é um modelo de linguagem de IA com suporte multilíngue e capacidade avançada de raciocínio, e sua habilidade de executar tarefas complexas em vários idiomas chama especialmente a atenção.
O modelo tem potencial para competir com modelos existentes como o GPT-4, e o suporte a vários idiomas, em particular, amplia sua aplicabilidade no mercado global.
A parceria com o Azure oferece uma oportunidade para que os modelos da Mistral AI alcancem uma base de usuários mais ampla, reforçando a escalabilidade e a acessibilidade dos serviços de IA baseados em nuvem.
O lançamento de modelos otimizados como o Mistral Small pode ser uma opção atraente para empresas que precisam de soluções de IA com boa relação custo-benefício e baixa latência.
Os recursos de formato JSON e chamada de função facilitam a integração dos modelos de IA às aplicações dos desenvolvedores, aumentando a praticidade e a flexibilidade da tecnologia de IA.

1 comentários

GN⁺ 2024-02-27

Opiniões no Hacker News

A honestidade do material de marketing foi muito valorizada. Mostrar pontuações de benchmark inferiores às do produto líder de mercado parece melhor do que o Google usar benchmarks de forma seletiva.
Embora eles já tenham feito muita coisa, houve a opinião de que seria bom haver uma reafirmação da promessa de contribuir com a comunidade open source. Achavam que isso era uma parte importante da marca deles.
Depois do caso miqu, havia expectativa de que saíssem mais pesos abertos, mas parece que será preciso esperar para ver o resultado.
Atualização das mudanças: renomeação de endpoints da API e adição de endpoints de modelo, lançamento de novos modelos, atualização de modelos existentes e aviso de descontinuação futura.
Novos recursos da API: suporte a function calling e modo JSON nos modelos Mistral Small e Mistral Large.
La Plateforme: adição de um sistema de pagamentos com suporte a múltiplas moedas e introdução de recursos de plataforma para empresas.
Le Chat: lançamento de uma nova interface de chat para interagir facilmente com os modelos da Mistral.
O novo modelo foi adicionado ao plugin da ferramenta LLM CLI. Agora é possível usá-lo da seguinte forma.
Usei o Le Chat para resolver alguns problemas de programação que surgiram hoje, e ele deu respostas muito melhores do que o ChatGPT, incluindo o GPT-4. Não está claro se, como algumas pessoas sugerem, a qualidade do ChatGPT caiu por causa de redução de custos, mas, para esses poucos problemas, a qualidade das respostas da Mistral foi muito superior.
Eu não conhecia a existência do Le Chat. Queria um concorrente do ChatGPT usando a Mistral, e também gostei de colocarem "le" no começo do nome do produto.
No Azure, a Mistral é um pouco mais barata do que o GPT-4.
Fica a dúvida se toda a agitação em torno de pesos abertos já acabou e se tudo continuará fechado.
Há uma pergunta sobre não haver informação em lugar nenhum a respeito do tamanho em parâmetros, e se isso foi intencional ou se algo passou despercebido.
É como se existissem várias arquiteturas de CPU intercambiáveis. Sempre que um novo LLM é lançado, isso dá a sensação de que o monopólio diminui bastante, o que é animador. Mesmo sem modelos open source, a OpenAI já parece ter cumprido sua missão.

Lançamento do modelo Mistral Large

Novos recursos e pontos fortes do Mistral Large

Modelos disponíveis no Azure por meio de parceria com a Microsoft

Capacidades do Mistral Large

Novo Mistral Small, otimizado para cargas de trabalho de baixa latência

Formato JSON e chamada de função

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões no Hacker News