30 pontos por GN⁺ 2024-09-22 | 7 comentários | Compartilhar no WhatsApp
  • Modelos de inteligência artificial (IA) normalmente são usados online, mas várias ferramentas abertas estão mudando isso
  • O bioinformata Chris Thorpe usou um grande modelo de linguagem (LLM), uma ferramenta de IA, para transformar o histo.fyi — um banco de dados da molécula do complexo principal de histocompatibilidade (MHC), uma proteína do sistema imunológico — em resumos fáceis de ler
  • Thorpe roda a IA no laptop, em vez de usar LLMs baseados na web, como o ChatGPT

Tendências recentes em LLMs

  • Organizações estão produzindo versões de LLMs com "pesos abertos", permitindo que usuários os baixem e executem localmente, desde que tenham capacidade computacional suficiente
  • Empresas de tecnologia estão criando versões reduzidas que podem rodar em hardware de consumo, com desempenho comparável ao de modelos grandes anteriores

Por que pesquisadores usam modelos locais

  • Redução de custos
  • Proteção de dados confidenciais de pacientes ou empresas
  • Garantia de reprodutibilidade
  • À medida que os computadores ficam mais rápidos e os modelos mais eficientes, as pessoas tenderão cada vez mais a rodar IA em laptops ou dispositivos móveis

Exemplos recentes de modelos pequenos com pesos abertos

  • Google DeepMind, Meta e Allen Institute for Artificial Intelligence, entre outros, divulgaram modelos com bilhões de parâmetros
  • A Microsoft lançou pequenos modelos de linguagem como Phi-1, Phi-1.5, Phi-2, Phi-3 e Phi-3.5, alguns dos quais também conseguem processar imagens
  • Sébastien Bubeck, vice-presidente de IA generativa da Microsoft, explicou o desempenho do Phi-3 pelo conjunto de dados de treinamento

Desenvolvimento de aplicações personalizadas

  • Pesquisadores podem desenvolver aplicações personalizadas com base nessas ferramentas
  • A Alibaba, da China, construiu o modelo Qwen, e um cientista biomédico de New Hampshire o ajustou com dados científicos para criar o Turbcat-72b

Proteção de privacidade

  • Outra vantagem dos modelos locais é a proteção da privacidade
  • Enviar informações de identificação pessoal para serviços comerciais pode violar regulações de proteção de dados
  • O médico Cyril Zakka, que lidera a equipe de saúde da Hugging Face, usa modelos locais para gerar dados de treinamento para outros modelos
  • Johnson Thomas, endocrinologista do sistema de saúde Mercy, em Springfield, está desenvolvendo um sistema baseado no Whisper, da OpenAI, e no Gemma 2, do Google DeepMind, para transcrever e resumir conversas entre médico e paciente, visando proteger a privacidade dos pacientes
  • O CELLama, desenvolvido pela farmacêutica Portrai, de Seul, usa LLMs locais para condensar em frases resumidas informações sobre expressão gênica celular e outras características, destacando a privacidade como principal vantagem

Uso dos modelos

  • Pesquisadores enfrentam um conjunto de opções de LLMs que muda rapidamente
  • Thorpe diz que atualmente usa o Llama no laptop e que modelos locais têm vantagem em termos de reprodutibilidade, por não mudarem
  • Thorpe está escrevendo código para alinhar moléculas de MHC com base em estruturas 3D e usa o ProtGPT2, um modelo com pesos abertos, para projetar novas proteínas
  • Mas, às vezes, aplicativos locais podem não ser suficientes, e Thorpe usa o GitHub Copilot baseado em nuvem para programação

Como acessar

  • É possível rodar LLMs localmente usando softwares como Ollama, GPT4All e Llamafile
  • Dependendo da preferência do usuário, é possível escolher entre aplicativo ou linha de comando
  • Stephen Hood, da Mozilla, diz que em breve os LLMs locais serão bons o bastante para a maioria das aplicações

Opinião do GN+

  • LLMs locais podem ser ferramentas muito úteis para pesquisadores, por oferecerem vantagens como redução de custos, proteção de privacidade e garantia de reprodutibilidade
  • No entanto, às vezes serviços baseados em nuvem podem oferecer desempenho melhor, então pesquisadores devem escolher a ferramenta adequada de acordo com as exigências da aplicação
  • Como o avanço dos LLMs locais está acelerando, pesquisadores precisam continuar explorando e testando novos modelos e ferramentas
  • Também vale considerar o desenvolvimento de modelos personalizados conforme a área de pesquisa. Por exemplo, pesquisadores biomédicos podem obter melhor desempenho ao ajustar modelos com dados médicos
  • Como os LLMs locais ainda estão em estágio inicial, pesquisadores devem estar cientes dos problemas e limitações que podem surgir ao usá-los. Por exemplo, é preciso analisar com cuidado vieses do modelo, qualidade dos dados e considerações éticas

7 comentários

 
savvykang 2024-09-24

Ainda é quente, lento e impreciso. Para a Nature, a qualidade da matéria está baixa.

 
yangeok 2024-09-24

Se rodar na edge, não fica lento e com menor precisão??

 
kandk 2024-09-23

Na prática, a menos que seja um domínio em que latency e privacy sejam de fato um problema, não há motivo para usar edge computing (local)..
Quase todos os dados do mundo já estão sendo processados pela AWS e pelo Google, então vir falar de privacy agora é só estratégia comercial de empresas que não têm tecnologia para criar LLMs..

 
lcanon 2024-09-22

Embora o título do artigo da Nature mencione small, na maior parte do conteúdo o ponto central é local.

 
dohyun682 2024-09-22

Toda hora mandam esquecer o ChatGPT...

 
kandk 2024-09-23

kkk

 
GN⁺ 2024-09-22
Comentários do Hacker News
  • Recomendação de uso de modelos locais

    • Recomenda baixar o Llamafile para quem acha que modelos locais são complexos ou que o computador não tem desempenho suficiente
    • O Whisperfiles também é oferecido, permitindo transcrição de voz em tempo real
    • Com o Twinny, é possível ter autocompletar de código e chat apenas localmente
    • Gratuito, privado e utilizável offline
  • Experiência de uso de LLM local

    • Durante a caminhada matinal, grava notas de voz e depois converte localmente em texto com Whisper antes de organizar com um LLM
    • Prefere o uso local por motivos de privacidade
  • AMD Strix Halo APU

    • Está previsto o lançamento de dispositivos com AMD Strix Halo APU, com 128 GB de memória unificada e NPU de 50 TOPS
    • É vista como uma alternativa promissora aos modelos MacBook Pro
  • Problema de licença do Llama 3.1

    • Llama 3.1 não é open source
    • É necessário deixar clara a diferença entre modelo de licença e open source
  • Uso de Docker e Ollama

    • Usando Ollama no Docker, teve uma experiência de desempenho semelhante ao ChatGPT
    • Integra com notas do Obsidian para gerar notas e usar busca difusa
    • Usa como ferramenta auxiliar para saúde mental e perguntas médicas
  • Desempenho de LLM local

    • Em um M1 Max, o Llama 8bn roda a 25 tokens por segundo
    • Em um Ryzen 5600h, é mais lento, com 10 tokens por segundo
    • Para resolver problemas, usa ChatGPT ou phind.com
    • Informações sensíveis não podem ser fornecidas a provedores online
  • Experimento com LLM local

    • Fez testes executando Llama-3.1-8b-instruct em uma Nvidia RTX 4060
    • Foi possível carregar totalmente um contexto de 20k tokens na GPU
    • Os recursos multimodais do Gemini oferecem qualidade melhor, reduzindo o valor de usar LLM local
  • Produtos baseados em LLM de grandes empresas

    • No campo de projeto de circuitos, é necessário usar modelos locais
    • Prefere modelos locais para não ficar dependente de fornecedores específicos como a OpenAI
    • Pessoalmente, também prefere usar modelos locais
  • Dados de treinamento de LLM

    • A Microsoft treina LLMs com conteúdo gerado por LLMs
    • Desempenho semelhante às primeiras versões do ChatGPT já foi implementado em celulares
  • Recomendação de especificações para rodar modelos pequenos

    • Pede recomendações de especificações para rodar modelos pequenos como Llama3.1 ou Mistral-Nemo
    • Pergunta se faz sentido esperar pelo lançamento de novos hardwares da Mac, AMD e Nvidia