- Em 28 de janeiro, o usuário "Miqu Dev" publicou no HuggingFace, uma plataforma de compartilhamento de modelos de IA open source e código, um novo conjunto de arquivos de modelo de linguagem de grande porte (LLM) open source chamado "miqu-1-70b"
- Esse modelo usa o mesmo "Prompt format" do Mixtral 8x7b, criado pela Mistral, empresa de IA open source atualmente considerada uma das de melhor desempenho
- No mesmo dia, um usuário anônimo publicou no 4chan um link para os arquivos do miqu-1-70b
- Alguns usuários relataram que o modelo apresenta excelente desempenho em tarefas gerais de LLM, chegando perto do GPT-4 da OpenAI
Quantização da Mistral?
- Pesquisadores de machine learning (ML) demonstraram interesse no LinkedIn sobre se "miqu" significaria "MIstral QUantized"
- Quantização é uma técnica que substitui longas sequências numéricas da arquitetura do modelo por versões mais curtas, permitindo executar modelos de IA em computadores e chips menos potentes
- Arthur Mensch, cofundador e CEO da Mistral, revelou que o modelo "Miqu" foi vazado por um funcionário entusiasmado demais de um dos clientes com acesso antecipado da Mistral
- A Mistral concluiu o pretraining desse modelo a partir do Llama 2 no dia do lançamento do Mistral 7B e, desde então, ele vem mostrando bom progresso
- Curiosamente, em vez de pedir a remoção da publicação ilegal no HuggingFace, Mensch comentou que "poderia considerar atribuição de autoria"
Um momento importante para a IA open source e além?
- O lançamento de um modelo open source com desempenho em nível de GPT-4 pode ser um momento importante não só para a IA generativa open source, mas também para toda a área de IA e ciência da computação
- A OpenAI pode manter sua vantagem competitiva com o GPT-4 Turbo e o GPT-4V (visão), mas a comunidade de IA open source está alcançando rapidamente
Opinião do GN⁺
- O surgimento do modelo "Miqu" mostra novas possibilidades para que a IA open source concorra com produtos comerciais de IA
- Este caso destaca a capacidade inovadora da comunidade open source e o rápido avanço da tecnologia
- O avanço dos modelos open source pode mudar a forma como as empresas utilizam IA, com impactos importantes em toda a indústria de tecnologia
1 comentários
Opiniões do Hacker News
Um usuário está acompanhando a página do TheBloke, esperando poder rodar o modelo Miqu Q5 quantizado em seu MacBook. Usa o Mixtral todos os dias e, se este modelo (ou uma nova versão oficial) chegar perto do GPT-4, cancelará a assinatura da OpenAI. Acha que a pequena equipe da Mistral está superando os concorrentes e representa o que a "Open"AI deveria ser.
Um usuário comenta que, apesar de já fazer 1 ano desde o lançamento do GPT-4, o esforço coletivo para ainda tentar alcançá-lo, sem nenhum truque especial, parece muito cansativo. Isso mesmo sabendo que a OpenAI pode lançar algo muito melhor a qualquer momento.
Outro usuário aponta, sobre a alegação de que ele se aproxima do GPT-4, que os leaderboards mostram uma grande diferença entre o GPT4-0314 e o GPT4-Turbo, e que, se ele mal se aproxima do GPT4-0314, ainda está 1 ano atrás do estado da arte.
Outro usuário menciona que o modelo vazado provavelmente deixará de ser importante em poucos meses. Depois que o modelo oficial sair, versões melhores serão lançadas, e diz estar mais empolgado com a velocidade do progresso do que com o modelo em si.
Um usuário questiona por que este modelo é chamado de modelo open source. Trata-se de um modelo proprietário vazado na internet, e continuará sendo assim até que a Mistral o lance oficialmente. Quanto ao uso pessoal, não se importaria, como aconteceu com o Llama 1, mas menciona que nenhuma empresa usará este modelo.
Outro usuário diz que a Mistral o faz lembrar das boas e velhas empresas de tecnologia de antes de 2015.
Um usuário se pergunta como podemos imaginar voltar a um mundo em que o GPT seja como a versão mais recente do Apache ou do MySQL, rodando em centenas de milhares de hosts web (desculpem, hosts de IA).
Por fim, um usuário menciona que o GPT-4 foi lançado há quase 1 ano e que o ritmo acelerado com que a OpenAI lançava novas tecnologias revolucionárias todo mês parece ter parado. Pergunta-se o que está acontecendo com a OpenAI, se o caos recente causou atrasos na empresa ou se ela está desenvolvendo alguma "superarma".