Lançamento do modelo Mistral Large 2

(mistral.ai)

6 pontos por GN⁺ 2024-07-25 | 1 comentários | Compartilhar no WhatsApp

O Mistral Large 2 oferece uma janela de contexto de 128k e suporte a vários idiomas, incluindo francês, alemão, espanhol, italiano, chinês, japonês e coreano
- Também oferece suporte a mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash
Foi projetado para inferência em nó único e, com 123 bilhões de parâmetros, pode oferecer alta taxa de processamento em um único nó
É distribuído sob a Mistral Research License, que permite uso e modificação para pesquisa e fins não comerciais. Para uso comercial, é necessário obter a Mistral Commercial License

Desempenho geral

O Mistral Large 2 estabelece um novo padrão na métrica de avaliação de desempenho/custo
Em especial no MMLU, a versão pré-treinada alcança 84,0% de precisão, estabelecendo um novo ponto na fronteira de Pareto de desempenho/custo

Código e raciocínio

Com base na experiência com o Codestral 22B e o Codestral Mamba, o Mistral Large 2 foi treinado com uma grande quantidade de código
O Mistral Large 2 é muito superior ao Mistral Large anterior e apresenta desempenho comparável ao de modelos líderes como GPT-4o, Claude 3 Opus e Llama 3 405B
Houve grande esforço para aprimorar a capacidade de raciocínio do modelo, e ele foi ajustado para minimizar a tendência de gerar informações incorretas
O modelo foi treinado para admitir quando não consegue encontrar uma solução ou quando não há informações suficientes

Seguimento de instruções e alinhamento

O Mistral Large 2 teve grande melhoria no seguimento de instruções e na capacidade de conversação
Como a concisão é importante em muitas aplicações de negócios, houve grande esforço para gerar respostas o mais concisas e diretas possível

Diversidade linguística

O Mistral Large 2 foi treinado com muitos dados multilíngues e apresenta excelente desempenho em inglês, francês, alemão, espanhol, italiano, português, neerlandês, russo, chinês, japonês, coreano, árabe e hindi

Uso de ferramentas e chamada de funções

O Mistral Large 2 conta com chamadas de função e recursos de busca aprimorados, e foi treinado para atuar como motor de aplicações de negócios complexas

Acesso aos modelos da Mistral por provedores de serviços em nuvem

A parceria com o Google Cloud Platform foi expandida para disponibilizar os modelos da Mistral AI no Vertex AI
Os modelos da Mistral AI também podem ser usados no Azure AI Studio, Amazon Bedrock e IBM watsonx.ai

Resumo do GN⁺

O Mistral Large 2 oferece suporte a vários idiomas e linguagens de programação, além de alta taxa de processamento em um único nó.
As capacidades de geração de código e raciocínio foram bastante aprimoradas, minimizando a tendência de gerar informações incorretas.
Foi treinado com muitos dados multilíngues e apresenta excelente desempenho em vários idiomas.
É oferecido a usuários globais por meio de parcerias com Google Cloud Platform, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.
Foi projetado para gerar respostas concisas e diretas em aplicações de negócios.

1 comentários

GN⁺ 2024-07-25

Comentários do Hacker News

Após testar os modelos Mistral Large 2 e Llama 3.1 405b, é difícil apontar uma superioridade clara entre os dois
Se você já usa Claude, provavelmente vale a pena continuar usando
Desejos para o Claude:
- Que fique mais inteligente
- Janela de contexto mais longa (1M+)
- Entrada de áudio nativa e compreensão de tom
- Que reduza julgamentos morais ao recusar pedidos
- Que seja mais rápido
- Aumento no número de tokens de saída
A concorrência entre modelos está ficando acirrada
Claude 3.5 Sonnet supera com folga todos os outros modelos
Não está claro como usar Mistral ou Llama no dia a dia
Estou desenvolvendo um assistente de programação com IA e, depois de testar vários modelos, o Mistral Large 2 foi o mais decepcionante
A licença não comercial é decepcionante
É competitivo com o Llama 3.1 405b, mas a licença é mais restritiva
As diferenças entre os modelos estão diminuindo, então talvez seja melhor ajustar finamente o Llama 405B para casos de uso específicos
A menos que haja um grande salto de qualidade, não deve haver tanta diferença no estado atual
Fico feliz em ver a concorrência tão forte
Estão gastando muito para criar modelos SOTA, mas continuam no nível do GPT-4o e do Claude Opus
Só colocar mais dados e mais GPUs está chegando ao limite
A experiência do usuário e a "personalidade" vão se tornar mais importantes
Tenho gostado do Claude Sonnet, que parece mais afiado do que os outros modelos
Não dá para esquecer que cada etapa exige mais energia e recursos
Compartilham os resultados recentes de benchmark de modelos do PyLLMs
- Ficaram surpresos com a velocidade e a qualidade do Nemo
- Mistral Large é bom, mas muito lento
Há confusão sobre qual modelo Claude é mais capaz: Opus ou Sonnet 3.5
O Mistral Large 2 tem melhorias em function calling e busca
Fica a dúvida se uma precisão de cerca de 50% em function calling significa que metade das tarefas complexas falha
Preferem o ChatGPT-4o e usam Claude quando há problemas, mas sem obter resultados melhores

Lançamento do modelo Mistral Large 2

Desempenho geral

Código e raciocínio

Seguimento de instruções e alinhamento

Diversidade linguística

Uso de ferramentas e chamada de funções

Acesso aos modelos da Mistral por provedores de serviços em nuvem

Resumo do GN⁺

Leituras relacionadas

1 comentários

Comentários do Hacker News