- O Mistral Large 2 oferece uma janela de contexto de 128k e suporte a vários idiomas, incluindo francês, alemão, espanhol, italiano, chinês, japonês e coreano
- Também oferece suporte a mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash
- Foi projetado para inferência em nó único e, com 123 bilhões de parâmetros, pode oferecer alta taxa de processamento em um único nó
- É distribuído sob a Mistral Research License, que permite uso e modificação para pesquisa e fins não comerciais. Para uso comercial, é necessário obter a Mistral Commercial License
Desempenho geral
- O Mistral Large 2 estabelece um novo padrão na métrica de avaliação de desempenho/custo
- Em especial no MMLU, a versão pré-treinada alcança 84,0% de precisão, estabelecendo um novo ponto na fronteira de Pareto de desempenho/custo
Código e raciocínio
- Com base na experiência com o Codestral 22B e o Codestral Mamba, o Mistral Large 2 foi treinado com uma grande quantidade de código
- O Mistral Large 2 é muito superior ao Mistral Large anterior e apresenta desempenho comparável ao de modelos líderes como GPT-4o, Claude 3 Opus e Llama 3 405B
- Houve grande esforço para aprimorar a capacidade de raciocínio do modelo, e ele foi ajustado para minimizar a tendência de gerar informações incorretas
- O modelo foi treinado para admitir quando não consegue encontrar uma solução ou quando não há informações suficientes
Seguimento de instruções e alinhamento
- O Mistral Large 2 teve grande melhoria no seguimento de instruções e na capacidade de conversação
- Como a concisão é importante em muitas aplicações de negócios, houve grande esforço para gerar respostas o mais concisas e diretas possível
Diversidade linguística
- O Mistral Large 2 foi treinado com muitos dados multilíngues e apresenta excelente desempenho em inglês, francês, alemão, espanhol, italiano, português, neerlandês, russo, chinês, japonês, coreano, árabe e hindi
Uso de ferramentas e chamada de funções
- O Mistral Large 2 conta com chamadas de função e recursos de busca aprimorados, e foi treinado para atuar como motor de aplicações de negócios complexas
Acesso aos modelos da Mistral por provedores de serviços em nuvem
- A parceria com o Google Cloud Platform foi expandida para disponibilizar os modelos da Mistral AI no Vertex AI
- Os modelos da Mistral AI também podem ser usados no Azure AI Studio, Amazon Bedrock e IBM watsonx.ai
Resumo do GN⁺
- O Mistral Large 2 oferece suporte a vários idiomas e linguagens de programação, além de alta taxa de processamento em um único nó.
- As capacidades de geração de código e raciocínio foram bastante aprimoradas, minimizando a tendência de gerar informações incorretas.
- Foi treinado com muitos dados multilíngues e apresenta excelente desempenho em vários idiomas.
- É oferecido a usuários globais por meio de parcerias com Google Cloud Platform, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.
- Foi projetado para gerar respostas concisas e diretas em aplicações de negócios.
1 comentários
Comentários do Hacker News