6 pontos por GN⁺ 2024-07-25 | 1 comentários | Compartilhar no WhatsApp
  • O Mistral Large 2 oferece uma janela de contexto de 128k e suporte a vários idiomas, incluindo francês, alemão, espanhol, italiano, chinês, japonês e coreano
    • Também oferece suporte a mais de 80 linguagens de programação, incluindo Python, Java, C, C++, JavaScript e Bash
  • Foi projetado para inferência em nó único e, com 123 bilhões de parâmetros, pode oferecer alta taxa de processamento em um único nó
  • É distribuído sob a Mistral Research License, que permite uso e modificação para pesquisa e fins não comerciais. Para uso comercial, é necessário obter a Mistral Commercial License

Desempenho geral

  • O Mistral Large 2 estabelece um novo padrão na métrica de avaliação de desempenho/custo
  • Em especial no MMLU, a versão pré-treinada alcança 84,0% de precisão, estabelecendo um novo ponto na fronteira de Pareto de desempenho/custo

Código e raciocínio

  • Com base na experiência com o Codestral 22B e o Codestral Mamba, o Mistral Large 2 foi treinado com uma grande quantidade de código
  • O Mistral Large 2 é muito superior ao Mistral Large anterior e apresenta desempenho comparável ao de modelos líderes como GPT-4o, Claude 3 Opus e Llama 3 405B
  • Houve grande esforço para aprimorar a capacidade de raciocínio do modelo, e ele foi ajustado para minimizar a tendência de gerar informações incorretas
  • O modelo foi treinado para admitir quando não consegue encontrar uma solução ou quando não há informações suficientes

Seguimento de instruções e alinhamento

  • O Mistral Large 2 teve grande melhoria no seguimento de instruções e na capacidade de conversação
  • Como a concisão é importante em muitas aplicações de negócios, houve grande esforço para gerar respostas o mais concisas e diretas possível

Diversidade linguística

  • O Mistral Large 2 foi treinado com muitos dados multilíngues e apresenta excelente desempenho em inglês, francês, alemão, espanhol, italiano, português, neerlandês, russo, chinês, japonês, coreano, árabe e hindi

Uso de ferramentas e chamada de funções

  • O Mistral Large 2 conta com chamadas de função e recursos de busca aprimorados, e foi treinado para atuar como motor de aplicações de negócios complexas

Acesso aos modelos da Mistral por provedores de serviços em nuvem

  • A parceria com o Google Cloud Platform foi expandida para disponibilizar os modelos da Mistral AI no Vertex AI
  • Os modelos da Mistral AI também podem ser usados no Azure AI Studio, Amazon Bedrock e IBM watsonx.ai

Resumo do GN⁺

  • O Mistral Large 2 oferece suporte a vários idiomas e linguagens de programação, além de alta taxa de processamento em um único nó.
  • As capacidades de geração de código e raciocínio foram bastante aprimoradas, minimizando a tendência de gerar informações incorretas.
  • Foi treinado com muitos dados multilíngues e apresenta excelente desempenho em vários idiomas.
  • É oferecido a usuários globais por meio de parcerias com Google Cloud Platform, Azure AI Studio, Amazon Bedrock e IBM watsonx.ai.
  • Foi projetado para gerar respostas concisas e diretas em aplicações de negócios.

1 comentários

 
GN⁺ 2024-07-25
Comentários do Hacker News
  • Após testar os modelos Mistral Large 2 e Llama 3.1 405b, é difícil apontar uma superioridade clara entre os dois
  • Se você já usa Claude, provavelmente vale a pena continuar usando
  • Desejos para o Claude:
    • Que fique mais inteligente
    • Janela de contexto mais longa (1M+)
    • Entrada de áudio nativa e compreensão de tom
    • Que reduza julgamentos morais ao recusar pedidos
    • Que seja mais rápido
    • Aumento no número de tokens de saída
  • A concorrência entre modelos está ficando acirrada
  • Claude 3.5 Sonnet supera com folga todos os outros modelos
  • Não está claro como usar Mistral ou Llama no dia a dia
  • Estou desenvolvendo um assistente de programação com IA e, depois de testar vários modelos, o Mistral Large 2 foi o mais decepcionante
  • A licença não comercial é decepcionante
  • É competitivo com o Llama 3.1 405b, mas a licença é mais restritiva
  • As diferenças entre os modelos estão diminuindo, então talvez seja melhor ajustar finamente o Llama 405B para casos de uso específicos
  • A menos que haja um grande salto de qualidade, não deve haver tanta diferença no estado atual
  • Fico feliz em ver a concorrência tão forte
  • Estão gastando muito para criar modelos SOTA, mas continuam no nível do GPT-4o e do Claude Opus
  • Só colocar mais dados e mais GPUs está chegando ao limite
  • A experiência do usuário e a "personalidade" vão se tornar mais importantes
  • Tenho gostado do Claude Sonnet, que parece mais afiado do que os outros modelos
  • Não dá para esquecer que cada etapa exige mais energia e recursos
  • Compartilham os resultados recentes de benchmark de modelos do PyLLMs
    • Ficaram surpresos com a velocidade e a qualidade do Nemo
    • Mistral Large é bom, mas muito lento
  • Há confusão sobre qual modelo Claude é mais capaz: Opus ou Sonnet 3.5
  • O Mistral Large 2 tem melhorias em function calling e busca
  • Fica a dúvida se uma precisão de cerca de 50% em function calling significa que metade das tarefas complexas falha
  • Preferem o ChatGPT-4o e usam Claude quando há problemas, mas sem obter resultados melhores