CEO da Mistral admite vazamento de novo modelo de IA open source com desempenho próximo ao GPT-4

(venturebeat.com)

10 pontos por GN⁺ 2024-02-01 | 1 comentários | Compartilhar no WhatsApp

Em 28 de janeiro, o usuário "Miqu Dev" publicou no HuggingFace, uma plataforma de compartilhamento de modelos de IA open source e código, um novo conjunto de arquivos de modelo de linguagem de grande porte (LLM) open source chamado "miqu-1-70b"
Esse modelo usa o mesmo "Prompt format" do Mixtral 8x7b, criado pela Mistral, empresa de IA open source atualmente considerada uma das de melhor desempenho
No mesmo dia, um usuário anônimo publicou no 4chan um link para os arquivos do miqu-1-70b
Alguns usuários relataram que o modelo apresenta excelente desempenho em tarefas gerais de LLM, chegando perto do GPT-4 da OpenAI

Quantização da Mistral?

Pesquisadores de machine learning (ML) demonstraram interesse no LinkedIn sobre se "miqu" significaria "MIstral QUantized"
Quantização é uma técnica que substitui longas sequências numéricas da arquitetura do modelo por versões mais curtas, permitindo executar modelos de IA em computadores e chips menos potentes
Arthur Mensch, cofundador e CEO da Mistral, revelou que o modelo "Miqu" foi vazado por um funcionário entusiasmado demais de um dos clientes com acesso antecipado da Mistral
- A Mistral concluiu o pretraining desse modelo a partir do Llama 2 no dia do lançamento do Mistral 7B e, desde então, ele vem mostrando bom progresso
Curiosamente, em vez de pedir a remoção da publicação ilegal no HuggingFace, Mensch comentou que "poderia considerar atribuição de autoria"

Um momento importante para a IA open source e além?

O lançamento de um modelo open source com desempenho em nível de GPT-4 pode ser um momento importante não só para a IA generativa open source, mas também para toda a área de IA e ciência da computação
A OpenAI pode manter sua vantagem competitiva com o GPT-4 Turbo e o GPT-4V (visão), mas a comunidade de IA open source está alcançando rapidamente

Opinião do GN⁺

O surgimento do modelo "Miqu" mostra novas possibilidades para que a IA open source concorra com produtos comerciais de IA
Este caso destaca a capacidade inovadora da comunidade open source e o rápido avanço da tecnologia
O avanço dos modelos open source pode mudar a forma como as empresas utilizam IA, com impactos importantes em toda a indústria de tecnologia

1 comentários

GN⁺ 2024-02-01

Opiniões do Hacker News

Um usuário está acompanhando a página do TheBloke, esperando poder rodar o modelo Miqu Q5 quantizado em seu MacBook. Usa o Mixtral todos os dias e, se este modelo (ou uma nova versão oficial) chegar perto do GPT-4, cancelará a assinatura da OpenAI. Acha que a pequena equipe da Mistral está superando os concorrentes e representa o que a "Open"AI deveria ser.

Tweet do CEO da Mistral: um funcionário entusiasmado demais de um dos clientes com acesso inicial vazou uma versão quantizada (e com marca-d’água) de um modelo antigo. Ele informa que este modelo foi retreinado a partir do Llama 2 assim que tiveram acesso ao cluster inteiro, no dia do lançamento do Mistral 7B, e que desde então fizeram bons progressos.
Um usuário comenta que, apesar de já fazer 1 ano desde o lançamento do GPT-4, o esforço coletivo para ainda tentar alcançá-lo, sem nenhum truque especial, parece muito cansativo. Isso mesmo sabendo que a OpenAI pode lançar algo muito melhor a qualquer momento.
Outro usuário aponta, sobre a alegação de que ele se aproxima do GPT-4, que os leaderboards mostram uma grande diferença entre o GPT4-0314 e o GPT4-Turbo, e que, se ele mal se aproxima do GPT4-0314, ainda está 1 ano atrás do estado da arte.
Outro usuário menciona que o modelo vazado provavelmente deixará de ser importante em poucos meses. Depois que o modelo oficial sair, versões melhores serão lançadas, e diz estar mais empolgado com a velocidade do progresso do que com o modelo em si.
Um usuário questiona por que este modelo é chamado de modelo open source. Trata-se de um modelo proprietário vazado na internet, e continuará sendo assim até que a Mistral o lance oficialmente. Quanto ao uso pessoal, não se importaria, como aconteceu com o Llama 1, mas menciona que nenhuma empresa usará este modelo.
Outro usuário diz que a Mistral o faz lembrar das boas e velhas empresas de tecnologia de antes de 2015.
Um usuário se pergunta como podemos imaginar voltar a um mundo em que o GPT seja como a versão mais recente do Apache ou do MySQL, rodando em centenas de milhares de hosts web (desculpem, hosts de IA).
Por fim, um usuário menciona que o GPT-4 foi lançado há quase 1 ano e que o ritmo acelerado com que a OpenAI lançava novas tecnologias revolucionárias todo mês parece ter parado. Pergunta-se o que está acontecendo com a OpenAI, se o caos recente causou atrasos na empresa ou se ela está desenvolvendo alguma "superarma".

CEO da Mistral admite vazamento de novo modelo de IA open source com desempenho próximo ao GPT-4

Quantização da Mistral?

Um momento importante para a IA open source e além?

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões do Hacker News