- A MK-1 é uma nova empresa que busca oferecer modelos de IA com capacidades equivalentes ou superiores às de potências de elite da IA, como OpenAI, Anthropic e Google.
- O primeiro produto da empresa, o MKML, é um runtime de inferência que pode reduzir pela metade o custo de inferência de grandes modelos de linguagem (LLMs) em GPUs com apenas algumas linhas de código Python.
- O MKML é compatível com ecossistemas populares como Hugging Face e PyTorch.
- O MKML está atualmente em fase de beta fechado e busca parceiros iniciais.
- O MKML pode ajudar a otimizar modelos de IA, reduzindo o uso de memória e aumentando a velocidade. Por exemplo, pode reduzir o modelo Llama-2 13B de 26 GB para 10,5 GB e diminuir o tempo de inferência do forward pass em até 2,3 vezes.
- O MKML pode ser usado para otimizar modelos de IA com foco em custo ou velocidade. Em cenários de otimização de custo, ele pode fazer com que o modelo caiba em instâncias de GPU mais baratas e até rode mais rápido do que o modelo base em instâncias mais caras. Em cenários de otimização de velocidade, o MKML pode tornar o modelo até 2,0 vezes mais rápido, permitindo atender mais usuários.
- O MKML pode ser integrado facilmente aos fluxos de trabalho existentes. Isso inclui comprimir o modelo uma vez usando um dos codecs de modelo do MKML, salvar o modelo comprimido em disco e depois carregá-lo para inferência.
- O MKML oferece suporte a vários tamanhos de modelo e configurações de sistema, e nos testes de velocidade foi consistentemente mais rápido do que a linha de base.
- O MKML também mantém alta fidelidade ao modelo original, mostrando diferenças desprezíveis em medições padrão de perplexidade.
- A visão de longo prazo da MK-1 é levar o desempenho da IA ao limite em toda a stack de inferência. A empresa tem um roadmap ambicioso para desenvolvimentos futuros.
1 comentários
Comentários do Hacker News