Mistral AI revela o novo modelo de linguagem Codestral Mamba

xguru · 2024-07-17T09:43:01+09:00

Modelo de linguagem Mamba2 especializado em geração de código Os modelos Mamba, ao contrário dos modelos Transformer, oferecem inferência em tempo linear e a capacidade de modelar sequências de comprimento teoricamente infinito Isso permite que os usuários interajam extensivamente com o modelo com respostas rápidas, independentemente do tamanho da entrada Essa eficiência impacta especialmente a produtividade em código, permitindo desempenho equivalente a modelos SOTA baseados em Transformer Nos resultados de benchmark do modelo 7B, o Codestral Mamba (7B) mostrou desempenho superior ou quase equivalente em relação ao CodeGemma-1.1 7B, CodeLlama 7B e DeepSeek v1.5 7B Espera-se que se torne um excelente assistente de código local Pode ser implantado via SDK mistral-inference e TensorRT-LLM, e também deverá receber suporte no llama.cpp para inferência local Download dos pesos brutos disponível no HuggingFace

(mistral.ai)

11 pontos por xguru 2024-07-17 | 2 comentários | Compartilhar no WhatsApp

Modelo de linguagem Mamba2 especializado em geração de código
Os modelos Mamba, ao contrário dos modelos Transformer, oferecem inferência em tempo linear e a capacidade de modelar sequências de comprimento teoricamente infinito
- Isso permite que os usuários interajam extensivamente com o modelo com respostas rápidas, independentemente do tamanho da entrada
- Essa eficiência impacta especialmente a produtividade em código, permitindo desempenho equivalente a modelos SOTA baseados em Transformer
Nos resultados de benchmark do modelo 7B, o Codestral Mamba (7B) mostrou desempenho superior ou quase equivalente em relação ao CodeGemma-1.1 7B, CodeLlama 7B e DeepSeek v1.5 7B
Espera-se que se torne um excelente assistente de código local
Pode ser implantado via SDK mistral-inference e TensorRT-LLM, e também deverá receber suporte no llama.cpp para inferência local
Download dos pesos brutos disponível no HuggingFace

2 comentários

xguru 2024-07-17

Comentários do Hacker News

São necessários passos para executar no VS Code
- Incluir no post um link para instruções ou um link de instalação com um clique da extensão do VS Code ajudaria na adoção
- É um modelo pelo qual muitos usuários provavelmente se interessariam, mas o problema é a ausência de uma chamada para ação que possa ser monetizada
Pede recomendações de modelos com recurso FIM
- Está usando codellama-13b com uma extensão do vim, mas o desempenho não é muito bom
- Gemma-27b gera código melhor, mas não tem recurso FIM
- codellama-34b não faz inferência corretamente
O DeepSeek deveria ser destacado na coluna MBPP
- O DeepSeek tem uma pontuação melhor que o Codestral
Anunciaram que o modelo está no HuggingFace, mas não forneceram o link
- Link: HuggingFace Mamba-Codestral-7B-v0.1
É bom ver um modelo de alto perfil usando Mamba2
Dizem que o Mamba é mais rápido, mas não há números de latência
- Fica a curiosidade se alguém já testou e se ele é realmente rápido
Recomenda uma apresentação de produto sobre os prós e contras de Mamba e Transformers
Pergunta se existe uma boa explicação sobre a arquitetura Mamba
Recomenda vídeos ou textos para alguém que entende o conceito geral de LLM, mas só usou ferramentas publicamente disponíveis como ChatGPT, Claude etc.
- Quer verificar se tem hardware para rodar localmente, mas não sabe por onde começar
Fez um teste rápido no playground do model.box
- O comprimento das conclusões é visivelmente mais curto do que em outros modelos (por exemplo, gpt-4o)
- A velocidade de resposta corresponde às expectativas

xguru 2024-07-17

Codestral - o modelo de IA para geração de código da Mistral

Mistral AI revela o novo modelo de linguagem Codestral Mamba

Leituras relacionadas

2 comentários

Comentários do Hacker News