10 pontos por GN⁺ 2024-02-01 | 1 comentários | Compartilhar no WhatsApp
  • Em 28 de janeiro, o usuário "Miqu Dev" publicou no HuggingFace, uma plataforma de compartilhamento de modelos de IA open source e código, um novo conjunto de arquivos de modelo de linguagem de grande porte (LLM) open source chamado "miqu-1-70b"
  • Esse modelo usa o mesmo "Prompt format" do Mixtral 8x7b, criado pela Mistral, empresa de IA open source atualmente considerada uma das de melhor desempenho
  • No mesmo dia, um usuário anônimo publicou no 4chan um link para os arquivos do miqu-1-70b
  • Alguns usuários relataram que o modelo apresenta excelente desempenho em tarefas gerais de LLM, chegando perto do GPT-4 da OpenAI

Quantização da Mistral?

  • Pesquisadores de machine learning (ML) demonstraram interesse no LinkedIn sobre se "miqu" significaria "MIstral QUantized"
  • Quantização é uma técnica que substitui longas sequências numéricas da arquitetura do modelo por versões mais curtas, permitindo executar modelos de IA em computadores e chips menos potentes
  • Arthur Mensch, cofundador e CEO da Mistral, revelou que o modelo "Miqu" foi vazado por um funcionário entusiasmado demais de um dos clientes com acesso antecipado da Mistral
    • A Mistral concluiu o pretraining desse modelo a partir do Llama 2 no dia do lançamento do Mistral 7B e, desde então, ele vem mostrando bom progresso
  • Curiosamente, em vez de pedir a remoção da publicação ilegal no HuggingFace, Mensch comentou que "poderia considerar atribuição de autoria"

Um momento importante para a IA open source e além?

  • O lançamento de um modelo open source com desempenho em nível de GPT-4 pode ser um momento importante não só para a IA generativa open source, mas também para toda a área de IA e ciência da computação
  • A OpenAI pode manter sua vantagem competitiva com o GPT-4 Turbo e o GPT-4V (visão), mas a comunidade de IA open source está alcançando rapidamente

Opinião do GN⁺

  • O surgimento do modelo "Miqu" mostra novas possibilidades para que a IA open source concorra com produtos comerciais de IA
  • Este caso destaca a capacidade inovadora da comunidade open source e o rápido avanço da tecnologia
  • O avanço dos modelos open source pode mudar a forma como as empresas utilizam IA, com impactos importantes em toda a indústria de tecnologia

1 comentários

 
GN⁺ 2024-02-01
Opiniões do Hacker News
  • Um usuário está acompanhando a página do TheBloke, esperando poder rodar o modelo Miqu Q5 quantizado em seu MacBook. Usa o Mixtral todos os dias e, se este modelo (ou uma nova versão oficial) chegar perto do GPT-4, cancelará a assinatura da OpenAI. Acha que a pequena equipe da Mistral está superando os concorrentes e representa o que a "Open"AI deveria ser.

    Tweet do CEO da Mistral: um funcionário entusiasmado demais de um dos clientes com acesso inicial vazou uma versão quantizada (e com marca-d’água) de um modelo antigo. Ele informa que este modelo foi retreinado a partir do Llama 2 assim que tiveram acesso ao cluster inteiro, no dia do lançamento do Mistral 7B, e que desde então fizeram bons progressos.

  • Um usuário comenta que, apesar de já fazer 1 ano desde o lançamento do GPT-4, o esforço coletivo para ainda tentar alcançá-lo, sem nenhum truque especial, parece muito cansativo. Isso mesmo sabendo que a OpenAI pode lançar algo muito melhor a qualquer momento.

  • Outro usuário aponta, sobre a alegação de que ele se aproxima do GPT-4, que os leaderboards mostram uma grande diferença entre o GPT4-0314 e o GPT4-Turbo, e que, se ele mal se aproxima do GPT4-0314, ainda está 1 ano atrás do estado da arte.

  • Outro usuário menciona que o modelo vazado provavelmente deixará de ser importante em poucos meses. Depois que o modelo oficial sair, versões melhores serão lançadas, e diz estar mais empolgado com a velocidade do progresso do que com o modelo em si.

  • Um usuário questiona por que este modelo é chamado de modelo open source. Trata-se de um modelo proprietário vazado na internet, e continuará sendo assim até que a Mistral o lance oficialmente. Quanto ao uso pessoal, não se importaria, como aconteceu com o Llama 1, mas menciona que nenhuma empresa usará este modelo.

  • Outro usuário diz que a Mistral o faz lembrar das boas e velhas empresas de tecnologia de antes de 2015.

  • Um usuário se pergunta como podemos imaginar voltar a um mundo em que o GPT seja como a versão mais recente do Apache ou do MySQL, rodando em centenas de milhares de hosts web (desculpem, hosts de IA).

  • Por fim, um usuário menciona que o GPT-4 foi lançado há quase 1 ano e que o ritmo acelerado com que a OpenAI lançava novas tecnologias revolucionárias todo mês parece ter parado. Pergunta-se o que está acontecendo com a OpenAI, se o caos recente causou atrasos na empresa ou se ela está desenvolvendo alguma "superarma".