11 pontos por xguru 2024-07-17 | 2 comentários | Compartilhar no WhatsApp
  • Modelo de linguagem Mamba2 especializado em geração de código
  • Os modelos Mamba, ao contrário dos modelos Transformer, oferecem inferência em tempo linear e a capacidade de modelar sequências de comprimento teoricamente infinito
    • Isso permite que os usuários interajam extensivamente com o modelo com respostas rápidas, independentemente do tamanho da entrada
    • Essa eficiência impacta especialmente a produtividade em código, permitindo desempenho equivalente a modelos SOTA baseados em Transformer
  • Nos resultados de benchmark do modelo 7B, o Codestral Mamba (7B) mostrou desempenho superior ou quase equivalente em relação ao CodeGemma-1.1 7B, CodeLlama 7B e DeepSeek v1.5 7B
  • Espera-se que se torne um excelente assistente de código local
  • Pode ser implantado via SDK mistral-inference e TensorRT-LLM, e também deverá receber suporte no llama.cpp para inferência local
  • Download dos pesos brutos disponível no HuggingFace

2 comentários

 
xguru 2024-07-17

Comentários do Hacker News

  • São necessários passos para executar no VS Code

    • Incluir no post um link para instruções ou um link de instalação com um clique da extensão do VS Code ajudaria na adoção
    • É um modelo pelo qual muitos usuários provavelmente se interessariam, mas o problema é a ausência de uma chamada para ação que possa ser monetizada
  • Pede recomendações de modelos com recurso FIM

    • Está usando codellama-13b com uma extensão do vim, mas o desempenho não é muito bom
    • Gemma-27b gera código melhor, mas não tem recurso FIM
    • codellama-34b não faz inferência corretamente
  • O DeepSeek deveria ser destacado na coluna MBPP

    • O DeepSeek tem uma pontuação melhor que o Codestral
  • Anunciaram que o modelo está no HuggingFace, mas não forneceram o link

  • É bom ver um modelo de alto perfil usando Mamba2

  • Dizem que o Mamba é mais rápido, mas não há números de latência

    • Fica a curiosidade se alguém já testou e se ele é realmente rápido
  • Recomenda uma apresentação de produto sobre os prós e contras de Mamba e Transformers

  • Pergunta se existe uma boa explicação sobre a arquitetura Mamba

  • Recomenda vídeos ou textos para alguém que entende o conceito geral de LLM, mas só usou ferramentas publicamente disponíveis como ChatGPT, Claude etc.

    • Quer verificar se tem hardware para rodar localmente, mas não sabe por onde começar
  • Fez um teste rápido no playground do model.box

    • O comprimento das conclusões é visivelmente mais curto do que em outros modelos (por exemplo, gpt-4o)
    • A velocidade de resposta corresponde às expectativas