2 pontos por GN⁺ 2023-12-09 | 1 comentários | Compartilhar no WhatsApp

1 comentários

 
GN⁺ 2023-12-09
Comentários do Hacker News
  • Opinião de Andrej Karpathy:

    • Introdução ao novo LLM (Large Language Model) open source da MistralAI
    • Configurações notáveis no arquivo params.json:
      • hidden_dim / dim = 14336/4096 => expansão do MLP em 3,5x
      • n_heads / n_kv_heads = 32/8 => multi-query 4x
      • "moe" => Mixture of Experts, top-2 entre 8 especialistas
    • O código relacionado pode ser visto no GitHub
    • Não há vídeo promocional exagerado sobre a revolução da IA
    • Como a grande conferência de deep learning NeurIPS está se aproximando, muita atividade de IA está acontecendo
  • Outras notícias sobre LLM:

    • Mistral/Yi está dominando outros modelos no leaderboard da Hugging Face usando modelos ajustados com uma nova técnica chamada 'neural alignment'
    • O modelo 7B "vence" a maioria dos modelos 70B
    • O modelo 34B em teste parece muito bom
    • Se essa técnica for aplicada ao Mistral Moe, pode se tornar um modelo excelente
    • Pode ser um ponto de inflexão importante em que OSS executável em desktop desafia o GPT-4
  • Abordagem da Mistral:

    • A Mistral não se preocupa muito com explicações, mas esse estilo transmite mais confiança do que anúncios corporativos polidos do Google
  • Forma simples de anúncio:

    • Preferência por anúncios simples, no estilo dos anos 90
  • Especificações do modelo da Mistral:

    • Divulgação do arquivo params.json com arquitetura Mixture of Experts
  • Comparação entre os anúncios da Mistral e do Google:

    • A forma de anunciar o modelo pela Mistral em contraste com o anúncio do Gemini pelo Google
    • A Mistral parece ter treinado com base no Megablocks de Stanford
  • Estratégia de marketing da Mistral:

    • Enquanto outras empresas focam em landing pages e vídeos promocionais, a Mistral simplesmente divulga o modelo
  • Informações públicas da Mistral:

    • Usa arquitetura Mixture of Experts
    • 8 especialistas com 7B parâmetros
    • Total de 96 GB de pesos, impossível de rodar em uma GPU doméstica comum