Mistral AI revela acesso antecipado aos seus primeiros endpoints de IA

(mistral.ai)

2 pontos por GN⁺ 2023-12-12 | 1 comentários | Compartilhar no WhatsApp

A Mistral AI abriu a beta da la plateforme, permitindo que desenvolvedores implantem e personalizem em produção modelos generativos abertos
A configuração inicial inclui 3 endpoints de chat para processar instruções em texto e 1 endpoint de embeddings, cada um com diferentes equilíbrios entre desempenho e preço
mistral-tiny e mistral-small são baseados em modelos abertos públicos, enquanto mistral-medium oferece um modelo protótipo atualmente em teste em ambiente de implantação
A API segue uma especificação de interface de chat amplamente usada, com suporte a clientes Python e JavaScript e ajuste de saída por meio de system prompt
Qualquer pessoa pode se registrar e usar a API, mas a capacidade será ampliada gradualmente, e ainda pode haver arestas por aparar até que o serviço seja totalmente self-service

la plateforme beta e a configuração dos endpoints

A Mistral AI disponibiliza modelos generativos abertos para desenvolvedores, junto com formas de implantá-los e personalizá-los para produção
O primeiro serviço de plataforma foi lançado em beta, com uma configuração inicial simples
- 3 endpoints de chat para geração baseada em instruções de texto
- 1 endpoint de embeddings pensado para uso em busca
- Cada endpoint oferece um equilíbrio diferente entre desempenho e preço
Endpoints de geração
- mistral-tiny
  - É o endpoint mais econômico e atualmente oferece Mistral 7B Instruct v0.2
  - Suporta apenas inglês e tem pontuação 7.6 no MT-Bench
  - O modelo ajustado por instruções pode ser baixado no Hugging Face
- mistral-small
  - Oferece o modelo mais recente, Mixtral 8x7B
  - Lida com inglês, francês, italiano, alemão, espanhol e código
  - Tem pontuação 8.3 no MT-Bench
  - Mais detalhes do modelo podem ser vistos no post do blog sobre o Mixtral
- mistral-medium
  - É o endpoint de maior qualidade e atualmente oferece um modelo protótipo em teste em ambiente de implantação
  - Segundo benchmarks padrão, está entre os melhores modelos disponíveis no momento
  - Lida com inglês, francês, italiano, alemão, espanhol e código
  - Tem pontuação 8.6 no MT-Bench
Alinhamento de modelo e embeddings
- Para tornar os modelos que seguem instruções mais controláveis e fáceis de usar, a empresa combina fine-tuning eficiente com otimização direta por preferência
- Os modelos são pré-treinados com dados extraídos da web aberta e depois passam por fine-tuning de instruções baseado em anotações
- mistral-embed é o endpoint de embeddings que oferece um modelo de embeddings de 1024 dimensões
- O modelo de embeddings foi projetado com foco em busca e registrou pontuação 55.26 em recuperação no MTEB

Acesso à API e operação em beta

A API segue uma especificação de interface de chat amplamente usada
Os endpoints podem ser chamados por bibliotecas cliente em Python e JavaScript
Quando o controle da saída é importante na aplicação, é possível ajustar mais fortemente a resposta do modelo com system prompt
Qualquer pessoa pode se registrar para usar a API, e a Mistral AI está ampliando a capacidade gradualmente
A equipe de negócios pode ajudar a verificar as necessidades dos usuários e acelerar o acesso
Até que a plataforma se estabilize como um serviço totalmente self-service, ainda pode haver arestas por aparar
A NVIDIA está apoiando a integração com TensorRT-LLM e Triton, além do trabalho de compatibilidade do TRT-LLM com sparse mixture of experts

1 comentários

GN⁺ 2023-12-12

Opiniões do Hacker News

Surpreende que essa notícia não tenha ficado presa no topo do HN o dia inteiro
Uma empresa pequena, que parece ter algo em torno de 30 pessoas, recebeu uma avaliação de US$ 2 bilhões e lançou um modelo MoE 7B×8 com o melhor modelo 7B em desempenho e desempenho de nível 70B, enquanto o custo de inferência fica no nível de 14B
Pode acabar sendo uma ameaça potencial maior à OpenAI do que Google ou Anthropic. Graças ao grande investimento recente, parece que pode escalar para um volume de tráfego razoável em breve e atrair pesquisadores de ponta cansados do exibicionismo e do drama escancarado no setor
- Porque já houve várias threads grandes
  Mixtral of experts - https://news.ycombinator.com/item?id=38598559 - dezembro de 2023, 272 comentários
  Mistral-8x7B-Chat - https://news.ycombinator.com/item?id=38594578 - dezembro de 2023, 69 comentários
  Mistral AI Valued at $2B - https://news.ycombinator.com/item?id=38593616 - dezembro de 2023, 221 comentários
  Mistral's mixtral-8x7B-32kseqlen on Vercel - https://news.ycombinator.com/item?id=38584179 - dezembro de 2023, 30 comentários
  French AI startup Mistral secures €2B valuation - https://news.ycombinator.com/item?id=38580758 - dezembro de 2023, 76 comentários
  Mistral "Mixtral" 8x7B 32k model [magnet] - https://news.ycombinator.com/item?id=38570537 - dezembro de 2023, 236 comentários
  Não é exatamente a mesma notícia, mas como a discussão segue em linhas bem parecidas, dá para considerar todos ou a maioria como posts quase duplicados
- É de longe a empresa mais impressionante surgida na atual onda de IA
  Em cerca de 6 meses, lançou uma referência entre os modelos 7B e está subindo rapidamente para escalas maiores
  Eu ri do round de investimento de março como sinal de hype, dizendo que estavam recebendo US$ 300 milhões com um time de 3 pessoas e uma ideia, mas claramente eu não conhecia os detalhes. A execução deles é realmente excelente
  Parece capaz de dominar todos os casos de uso que não exigem desempenho de GPT-4 e, em breve, talvez até mirar o território dos modelos grandes
- Mesmo olhando o post do blog e o site, é um pouco difícil entender exatamente o que isso é
  Então imagino que só quem já está bem familiarizado com IA perceba a relevância. Ainda assim, a explicação acima certamente ajuda
- A Mistral fica na França, e a UE neste momento está num clima de jogar água fria com regulação de IA. No longo prazo, isso parece um fator negativo
- A formação francesa em engenharia e ciência da computação realmente enfatiza matemática e teoria. Isso é uma vantagem em IA
Se os benchmarks se traduzirem em desempenho real, é muito impressionante [1]
O mistral-medium supera com boa margem o GPT-3.5 e o Gemini Pro, atual melhor modelo público do Google, em praticamente todos os benchmarks comparáveis disponíveis: https://screenbud.com/shot/c0d904e3-24a3-4c23-a1e4-2f18bc021...
[1] Se o Mistral 7B for a referência, espero que a diferença de desempenho real seja ainda maior. O fato de o filtro de segurança ser opcional também é uma grande vantagem em aplicações seguras
- Se a próxima grande IA do Google já estiver perdendo para uma empresa pequena com muito menos recursos, isso é bem amargo do ponto de vista do Google
- A pontuação no Winogrande é maior que a do GPT-4. Os outros indicadores parecem mais próximos do GPT-3, então isso surpreende
- Não sei se o Gemini Pro é realmente “utilizável”
  Até o modelo ser lançado, não confio em benchmarks promocionais. Antes da liberação pública, tudo varia demais dependendo de quanto o desempenho precisa ser reduzido por questões de segurança
- Se lançarem o novo modelo como open source, seria realmente interessante
- Vi um vídeo, e o próprio Mixtral foi surpreendentemente bem em várias tarefas. Havia áreas em que o GPT-4 nem sempre ia tão bem assim
https://docs.mistral.ai/platform/pricing
Os preços também foram divulgados.
Por 1 milhão de tokens de saída, o Mistral-medium custa 8 dólares, o Mistral-small 1,94 dólar, o gpt-3.5-turbo-1106 2 dólares, o gpt-4-1106-preview 30 dólares, o gpt-4 60 dólares e o gpt-4-32k 120 dólares.
Esse preço parece sinalizar que a Mistral está bastante confiante de que o mistral-medium é consideravelmente melhor que o gpt-3.5.
- Fico curioso para saber se existe alguma estimativa das exigências de energia desses modelos.
  Fazendo uma conta bem aproximada, a inferência de um modelo 30B em uma GTX 4090 deve render algo como 30 tokens por segundo [1], ou cerca de 100 mil tokens por hora.
  Se assumirmos que um sistema assim consome cerca de 1kW, isso dá aproximadamente 10kWh por 1 milhão de tokens.
  Com a tarifa atual de eletricidade, parece difícil baixar de 2 a 4 dólares por 1 milhão de tokens para um modelo 30B.
  [1] https://old.reddit.com/r/LocalLLaMA/comments/13j5cxf/how_man...
- Considerando também os tokens de entrada, no total isso parece ficar mais perto de 5,25 euros contra 1,5 euro por 1 milhão de tokens.
  O Mistral-small parece ser o modelo que compete mais diretamente com o gpt-3.5, e é mais barato. Fica na faixa de 1,2 euro por 1 milhão de tokens.
  Como referência, assumi que os pesos de tokens de entrada e saída fossem iguais, e não consegui ver os preços em dólar.
- Ainda não é seguro assumir isso. O acesso continua restrito, então na prática parece ser só por convite. Só vai dar para testar e verificar depois que houver algum nível de disponibilidade geral.
- Fico me perguntando se Mistral e GPT usam o mesmo tokenizer.
- O medium parece querer competir mais com o Claude da Anthropic do que com produtos da OpenAI.
  https://www-files.anthropic.com/production/images/model_pric...
Dizer que “os endpoints são oferecidos em acesso antecipado” na prática significa “existe uma lista de espera de tamanho desconhecido para acesso antecipado aos endpoints”.
Ao tentar acessar, aparece: “Access to our API is currently invitation-only, but we'll let you know when you can subscribe to get access to our best models.”
- Pelo fato de a verificação de e-mail ter ficado quebrada de várias formas durante a última hora, parece que eles não estavam tão preparados para a divulgação quanto se imaginava.
“Mistral-embed, our embedding endpoint, serves an embedding model with a 1024 embedding dimension. Our embedding model has been designed with retrieval capabilities in mind. It achieves a retrieval score of 55.26 on MTEB.”
Fico curioso se existe alguma informação sobre esse modelo de embedding ser open source, ou se há planos para torná-lo open source no futuro.
“Mistral-Medium outperforms GPT-4 in Winogrande benchmark 88% vs 87.5%”
Fonte: https://twitter.com/yupiop12/status/1734137238177698106
É interessante que várias plataformas, como a Lemonfox.ai, ofereçam modelos com fine-tuning do Mistral por preços mais baixos.
Elas já anunciaram também a API do Mistral 8x7B. Se a ideia é monetizar, fica a dúvida se eles vão continuar liberando como open source modelos futuros, como uma versão medium.
- Sem pesos abertos, por que as pessoas deveriam se importar? Quando ele conseguir competir com o GPT-4, é bem provável que o GPT-5 já tenha saído.
Vi por acaso que o servidor TextSynth do Fabrice Bellard agora oferece suporte ao novo modelo Mistral 7B.
“2023-10-21: CUDA support in the Windows version, mistral model support. Speculative sampling is supported. BNF grammar and JSON schema sampling.”
“mistral_7B_instruct_q4 - 3.9GB - Mistral 7B chat model”
https://bellard.org/ts_server/
“Mistral-medium. Our highest-quality endpoint currently serves a prototype model, that is currently among the top serviced models available based on standard benchmarks.”
Interessante. Esse modelo supera o ChatGPT 3.5. Não está claro que tipo de modelo ele é, e ele não é open source.
- Ah, então parece que o que se usa no ollama é a versão tiny.
  “Mistral-tiny. Our most cost-effective endpoint currently serves Mistral 7B Instruct v0.2, a new minor release of Mistral 7B Instruct. Mistral-tiny only works in English. It obtains 7.6 on MT-Bench. The instructed model can be downloaded here.”

Mistral AI revela acesso antecipado aos seus primeiros endpoints de IA

la plateforme beta e a configuração dos endpoints

Endpoints de geração

Alinhamento de modelo e embeddings

Acesso à API e operação em beta

Leituras relacionadas

1 comentários

Opiniões do Hacker News