1 pontos por GN⁺ 2023-08-07 | 1 comentários | Compartilhar no WhatsApp
  • A MK-1 é uma nova empresa que busca oferecer modelos de IA com capacidades equivalentes ou superiores às de potências de elite da IA, como OpenAI, Anthropic e Google.
  • O primeiro produto da empresa, o MKML, é um runtime de inferência que pode reduzir pela metade o custo de inferência de grandes modelos de linguagem (LLMs) em GPUs com apenas algumas linhas de código Python.
  • O MKML é compatível com ecossistemas populares como Hugging Face e PyTorch.
  • O MKML está atualmente em fase de beta fechado e busca parceiros iniciais.
  • O MKML pode ajudar a otimizar modelos de IA, reduzindo o uso de memória e aumentando a velocidade. Por exemplo, pode reduzir o modelo Llama-2 13B de 26 GB para 10,5 GB e diminuir o tempo de inferência do forward pass em até 2,3 vezes.
  • O MKML pode ser usado para otimizar modelos de IA com foco em custo ou velocidade. Em cenários de otimização de custo, ele pode fazer com que o modelo caiba em instâncias de GPU mais baratas e até rode mais rápido do que o modelo base em instâncias mais caras. Em cenários de otimização de velocidade, o MKML pode tornar o modelo até 2,0 vezes mais rápido, permitindo atender mais usuários.
  • O MKML pode ser integrado facilmente aos fluxos de trabalho existentes. Isso inclui comprimir o modelo uma vez usando um dos codecs de modelo do MKML, salvar o modelo comprimido em disco e depois carregá-lo para inferência.
  • O MKML oferece suporte a vários tamanhos de modelo e configurações de sistema, e nos testes de velocidade foi consistentemente mais rápido do que a linha de base.
  • O MKML também mantém alta fidelidade ao modelo original, mostrando diferenças desprezíveis em medições padrão de perplexidade.
  • A visão de longo prazo da MK-1 é levar o desempenho da IA ao limite em toda a stack de inferência. A empresa tem um roadmap ambicioso para desenvolvimentos futuros.

1 comentários

 
GN⁺ 2023-08-07
Comentários do Hacker News
  • O artigo discute a nova tecnologia MK-1, mas não compara os resultados com métodos de quantização existentes, o que alguns leitores consideram uma omissão importante.
  • Um leitor fornece um gráfico comparativo de outras quantizações disponíveis para o Llama 1 e sugere que o desempenho do MK-1 é semelhante ao do Q5_1, com uma pequena redução de complexidade e mais que o dobro de ganho de velocidade.
  • Alguns leitores expressam ceticismo em relação ao MK-1, sugerindo que ele pode ser um wrapper em torno de tecnologias já existentes, como bitsandbytes ou ggml.
  • Há preocupação pelo fato de o MK-1 não ser open source, e alguns leitores afirmam que não o usariam por causa da velocidade com que essa área evolui e da falta de conveniência.
  • Um leitor diz já ter trabalhado com quantização de modelos de ML e afirma que a quantização open source de 4 bits ou 8 bits não é a melhor opção, insinuando técnicas mais avançadas.
  • Foi solicitada uma comparação entre o MK-1 e o mlc-llm com quantização de 4 bits, sendo relatado que este último executa o Llama2 13B com velocidade impressionante.
  • Alguns leitores reclamam de dependências proprietárias na pilha tecnológica e preferem opções de primeira linha, como OpenAI e Anthropic, ou então criar suas próprias soluções.
  • A decisão da empresa de otimizar modelos populares e vendê-los sob uma licença OSS de verdade, sem se preocupar com restrições de licença sobre os pesos, parece ser um movimento estratégico.
  • Alguns leitores classificam o MK-1 como mais um golpe de startup de IA, criticando o uso de GGML, o caráter fechado e a busca por dinheiro de VC.
  • A ausência de open source e a natureza fechada do MK-1 parecem ser desvantagens importantes, e alguns leitores o declaram como "morto na água".