1 pontos por GN⁺ 2024-04-12 | 1 comentários | Compartilhar no WhatsApp

1 comentários

 
GN⁺ 2024-04-12
Opiniões no Hacker News
  • Fico curioso sobre a forma mais fácil de rodar esse modelo quando se tem os pesos e o hardware
    Mesmo fazendo offload de metade do modelo para a RAM, queria saber com qual ferramenta devo carregá-lo: Ollama, Llama.cpp, ou se basta importá-lo por uma biblioteca Python
    Também fico curioso sobre qual seria uma boa forma de fazer benchmark para comparar com outro modelo, e se há ferramentas prontas para isso
    • O método llamafile parece ser o melhor
      O binário funciona pela linha de comando ou sobe um pequeno servidor web
      O llamafile oferece uma build do Mixtral-8x7B-Instruct, então este modelo provavelmente também pode ser empacotado, possivelmente em formato quantizado
      É preciso confirmar com alguém que conheça melhor o ecossistema, mas parece que o novo modelo também poderia rodar diretamente no llamafile
      https://github.com/Mozilla-Ocho/llamafile
    • A forma mais fácil é rodar com vllm(https://github.com/vllm-project/vllm) em algo como duas A100, e os benchmarks podem ser feitos com lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
    • Para testar LLMs em um MacBook, o LM Studio é excelente: https://lmstudio.ai/
      Dentro do app, é muito fácil buscar modelos novos do Hugging Face e testá-los na hora
    • Há um usuário chamado The Bloke no Hugging Face que publica modelos pré-quantizados pouco depois de sair o modelo em tamanho completo
      É só ficar de olho nessa página e torcer para que o modelo de 4 bits caiba na GPU
      Imagino que ele já esteja trabalhando nisso
    • Dá para testar pela Together aqui:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • O post duplicado está aqui: https://news.ycombinator.com/item?id=39986047
    É o post que usa um link para o tweet em vez do perfil:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22B, hein? Se isto for tão bom quanto o Mixtral 8x7B, vamos entrar em uma fase realmente interessante
    • Ouvi dizer que o Command R foi o primeiro open source a superar o GPT-4 em benchmarks
    • Como já existe o 8x7B, não haveria motivo para querer outro 8x7B, então deve significar que é melhor, certo?
  • Fugindo um pouco do tema, fico curioso se já voltamos ao nível de desempenho do ChatGPT 4 da época em que as pessoas diziam que ele parecia mágica
    Refiro-me ao padrão de antes de o desempenho cair bastante enquanto o tornavam mais politicamente correto
    • Testei vários LLMs em um MacBook e, comparados a qualquer ponto do GPT-4, ainda acho que todos estão muito atrás
      Ainda assim, há muitos modelos no nível do GPT-3, e também há bastante modelos ajustados para tarefas específicas
      A grande lacuna nos modelos abertos é o suporte a idiomas
      Só vi um modelo que produz resultados aceitáveis em norueguês, e isso nunca foi um problema no GPT-4
    • Entre os modelos abertos, acho que pelo menos já chegaram ao desempenho do lançamento inicial do ChatGPT 4
  • É uma corrida para cada um lançar seu melhor modelo pequeno antes de o Llama 3 sair?
    • 262GB não é exatamente pequeno
      Ainda assim, se todos obtiverem resultados piores que o Llama 3, pode ficar constrangedor lançar depois, então parece que estão soltando agora
    • Considerando os rumores de que o Llama 3 sai nas próximas duas semanas, isso parece bem plausível
  • O Mixtral 8x7B foi bom de usar, e estou ansioso para testar este modelo também
  • Há benchmarks não oficiais aqui:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • Seria bom se o GPT-4 estivesse ali
      Esse ainda é o modelo a ser superado
  • A quantização em 4 bits deve exigir 85GB de VRAM, então caberia bem em 4 GPUs de consumidor de 24GB, com ainda alguma folga para otimização do cache KV
    • Em 4 bits, pode usar menos que isso
      Porque há uma quantidade considerável de parâmetros compartilhados entre os modelos especialistas
      Mas, se não for rodar com tamanho de batch 1, pode ser mais sofrido do que uma configuração com 8 GPUs
      É quase certo que a maioria ou todos os especialistas serão ativados dentro do batch
    • A quantização em 2 bits do Mixtral 8x7B foi utilizável para alguns casos até em uma GPU de 8GB
      Fico curioso para ver como este novo modelo se comporta em configurações com GPUs baratas na faixa de 8 a 16GB
  • É muito importante notar que este é um modelo-base, não um modelo instrucional
    O que é útil para chat são os modelos com fine-tuning de instruções
    • Fico curioso sobre como é usar diretamente um modelo-base poderoso
      Seria simplesmente algo que completa o texto do prompt como uma continuação?
  • Saiu exatamente no momento em que o Llama 3 está sendo divulgado
    • No mesmo dia, o Google Gemini Pro lançou algo próximo de um acesso multimodal aberto com contexto longo, e a OpenAI também atualizou o GPT-4-Turbo; foi um grande dia, cheio de notícias