Modelo Mistral “Mixtral” 8x7B 32k [ímã] (twitter.com/MistralAI) 2 pontos por GN⁺ 2023-12-09 | 1 comentários | Compartilhar no WhatsApp Leituras relacionadas Mistral AI lança novo modelo MOE 8x22B 1 pontos · 1 comentários · 2024-04-12 Mistral AI revela o novo modelo aberto Mixtral 8x22B 9 pontos · 6 comentários · 2024-04-18 Mistral AI revela o modelo Mixtral 8x7B, superior ao Llama 2 70B 12 pontos · 2 comentários · 2023-12-12 Implementação de inferência em C puro, apenas para CPU, do modelo de reconhecimento de voz Mistral Voxtral Realtime 4B 13 pontos · 1 comentários · 2026-02-12 Mixtral 8x7B: modelo de linguagem de mistura esparsa de especialistas 1 pontos · 1 comentários · 2024-01-10 1 comentários GN⁺ 2023-12-09 Comentários do Hacker News Opinião de Andrej Karpathy: Introdução ao novo LLM (Large Language Model) open source da MistralAI Configurações notáveis no arquivo params.json: hidden_dim / dim = 14336/4096 => expansão do MLP em 3,5x n_heads / n_kv_heads = 32/8 => multi-query 4x "moe" => Mixture of Experts, top-2 entre 8 especialistas O código relacionado pode ser visto no GitHub Não há vídeo promocional exagerado sobre a revolução da IA Como a grande conferência de deep learning NeurIPS está se aproximando, muita atividade de IA está acontecendo Outras notícias sobre LLM: Mistral/Yi está dominando outros modelos no leaderboard da Hugging Face usando modelos ajustados com uma nova técnica chamada 'neural alignment' O modelo 7B "vence" a maioria dos modelos 70B O modelo 34B em teste parece muito bom Se essa técnica for aplicada ao Mistral Moe, pode se tornar um modelo excelente Pode ser um ponto de inflexão importante em que OSS executável em desktop desafia o GPT-4 Abordagem da Mistral: A Mistral não se preocupa muito com explicações, mas esse estilo transmite mais confiança do que anúncios corporativos polidos do Google Forma simples de anúncio: Preferência por anúncios simples, no estilo dos anos 90 Especificações do modelo da Mistral: Divulgação do arquivo params.json com arquitetura Mixture of Experts Comparação entre os anúncios da Mistral e do Google: A forma de anunciar o modelo pela Mistral em contraste com o anúncio do Gemini pelo Google A Mistral parece ter treinado com base no Megablocks de Stanford Estratégia de marketing da Mistral: Enquanto outras empresas focam em landing pages e vídeos promocionais, a Mistral simplesmente divulga o modelo Informações públicas da Mistral: Usa arquitetura Mixture of Experts 8 especialistas com 7B parâmetros Total de 96 GB de pesos, impossível de rodar em uma GPU doméstica comum
1 comentários
Comentários do Hacker News
Opinião de Andrej Karpathy:
params.json:hidden_dim / dim = 14336/4096=> expansão do MLP em 3,5xn_heads / n_kv_heads = 32/8=> multi-query 4x"moe"=> Mixture of Experts, top-2 entre 8 especialistasOutras notícias sobre LLM:
Abordagem da Mistral:
Forma simples de anúncio:
Especificações do modelo da Mistral:
params.jsoncom arquitetura Mixture of ExpertsComparação entre os anúncios da Mistral e do Google:
Estratégia de marketing da Mistral:
Informações públicas da Mistral: