O momento Stable Diffusion está chegando aos LLMs

xguru · 2023-03-13T11:40:39+09:00

O lançamento do Stable Diffuion (SD) em agosto de 2022 foi um momento importante, e desde então uma inovação explosiva continua acontecendo Recentemente, o ControlNet superou MidJourney e DALL-E em termos de funcionalidades A abertura do SD criou um novo interesse em IA generativa, e essa onda ficou ainda mais forte com o lançamento do ChatGPT em novembro O momento SD também está chegando aos modelos de linguagem de grande porte (LLMs) Agora já é possível rodar um modelo de linguagem do nível do GPT-3 em um notebook pessoal LLaMA LLMs como o GPT-3 custam muito mais para construir e operar do que modelos de geração de imagem Os melhores modelos foram construídos por empresas como a OpenAI e podem ser acessados por API, mas não são disponibilizados para execução direta Os próprios modelos também são grandes, então mesmo que você obtenha um modelo como o GPT-3, ele não pode ser executado em hardware comercial (são necessárias várias GPUs classe A100, cada uma custando mais de $8000) Muitos modelos de linguagem foram lançados publicamente nos últimos anos, mas a maioria não é adequada para rodar diretamente Tudo mudou graças ao modelo LLaMA, do Facebook, e ao llama.cpp O LLaMA não é totalmente aberto. Para acessar o modelo, é preciso concordar com algumas condições rígidas Alguém publicou um PR não oficial que pode ser baixado por torrent, tornando o download possível llama.cpp Se o LLaMA não puder rodar em notebooks pessoais, ele não será assim tão interessante O búlgaro Georgi Gerganov já havia criado o Whisper.cpp, um port em C++ do modelo de reconhecimento de voz Whisper da OpenAI Ele fez o mesmo trabalho com o LLaMA O objetivo era fazê-lo rodar até em MacBooks usando quantização de 4-bit (técnica que reduz o tamanho do modelo para funcionar em hardware mais lento) Ele reduziu o próprio tamanho dos modelos: o modelo 7B para 4GB e o 13B para menos de 8GB Funciona muito bem em MacBooks Agora é possível rodar em um notebook o modelo 13B que o Facebook afirma ser competitivo com o GPT-3 Ao ver o texto sendo gerado em um notebook, dá a sensação de que o mundo está mudando de novo Eu achava que teria de esperar alguns anos para rodar um modelo do nível do GPT-3 no meu próprio equipamento, mas eu estava errado. "O futuro já está aqui" Esse é o pior cenário? Não estou falando de preocupação com cenários dignos de ficção científica. Um LLM rodando em um notebook também não vai virar uma "AGI que domina o mundo" Mas há várias formas de usar essa tecnologia para fins ruins Geração de spam, golpes românticos automatizados, trolling e discurso de ódio, fake news e desinformação, radicalização automatizada Antes deste momento, existia ao menos uma fina camada de defesa, com empresas como a OpenAI controlando a forma como as pessoas interagiam com esses modelos Mas agora, como eles podem rodar no hardware de cada um, esse tipo de controle desaparece Como usar isso para o bem? Acho que isso vai ter um grande impacto na sociedade. Minha prioridade é conduzir esse impacto em uma direção positiva É fácil cair numa visão cínica de que a IA generativa é prejudicial ou só faz perder tempo Eu pessoalmente uso ferramentas de IA generativa todos os dias. Elas aumentaram materialmente minha produtividade e, mais importante, ampliaram minha ambição em relação aos projetos que realizo Na semana passada, usei o ChatGPT para aprender em uma hora o AppleScript necessário para um novo projeto Vou continuar explorando e compartilhando formas positivas de aplicar essa tecnologia O que observar a seguir A menos que o Facebook flexibilize as condições de licença, o LLaMA pode acabar ficando apenas como uma prova de conceito de que esse tipo de modelo roda em hardware de consumo Agora começou uma corrida para lançar um modelo de linguagem totalmente aberto que ofereça funcionalidades semelhantes às do ChatGPT no próprio dispositivo das pessoas

(simonwillison.net)

37 pontos por xguru 2023-03-13 | 3 comentários | Compartilhar no WhatsApp

O lançamento do Stable Diffuion (SD) em agosto de 2022 foi um momento importante, e desde então uma inovação explosiva continua acontecendo
Recentemente, o ControlNet superou MidJourney e DALL-E em termos de funcionalidades
A abertura do SD criou um novo interesse em IA generativa, e essa onda ficou ainda mais forte com o lançamento do ChatGPT em novembro
O momento SD também está chegando aos modelos de linguagem de grande porte (LLMs)
Agora já é possível rodar um modelo de linguagem do nível do GPT-3 em um notebook pessoal

LLaMA

LLMs como o GPT-3 custam muito mais para construir e operar do que modelos de geração de imagem
Os melhores modelos foram construídos por empresas como a OpenAI e podem ser acessados por API, mas não são disponibilizados para execução direta
Os próprios modelos também são grandes, então mesmo que você obtenha um modelo como o GPT-3, ele não pode ser executado em hardware comercial (são necessárias várias GPUs classe A100, cada uma custando mais de $8000)
Muitos modelos de linguagem foram lançados publicamente nos últimos anos, mas a maioria não é adequada para rodar diretamente
Tudo mudou graças ao modelo LLaMA, do Facebook, e ao llama.cpp
O LLaMA não é totalmente aberto. Para acessar o modelo, é preciso concordar com algumas condições rígidas
Alguém publicou um PR não oficial que pode ser baixado por torrent, tornando o download possível

llama.cpp

Se o LLaMA não puder rodar em notebooks pessoais, ele não será assim tão interessante
O búlgaro Georgi Gerganov já havia criado o Whisper.cpp, um port em C++ do modelo de reconhecimento de voz Whisper da OpenAI
Ele fez o mesmo trabalho com o LLaMA
O objetivo era fazê-lo rodar até em MacBooks usando quantização de 4-bit (técnica que reduz o tamanho do modelo para funcionar em hardware mais lento)
Ele reduziu o próprio tamanho dos modelos: o modelo 7B para 4GB e o 13B para menos de 8GB
Funciona muito bem em MacBooks
Agora é possível rodar em um notebook o modelo 13B que o Facebook afirma ser competitivo com o GPT-3
Ao ver o texto sendo gerado em um notebook, dá a sensação de que o mundo está mudando de novo
Eu achava que teria de esperar alguns anos para rodar um modelo do nível do GPT-3 no meu próprio equipamento, mas eu estava errado. "O futuro já está aqui"

Esse é o pior cenário?

Não estou falando de preocupação com cenários dignos de ficção científica. Um LLM rodando em um notebook também não vai virar uma "AGI que domina o mundo"
Mas há várias formas de usar essa tecnologia para fins ruins
- Geração de spam, golpes românticos automatizados, trolling e discurso de ódio, fake news e desinformação, radicalização automatizada
Antes deste momento, existia ao menos uma fina camada de defesa, com empresas como a OpenAI controlando a forma como as pessoas interagiam com esses modelos
Mas agora, como eles podem rodar no hardware de cada um, esse tipo de controle desaparece

Como usar isso para o bem?

Acho que isso vai ter um grande impacto na sociedade. Minha prioridade é conduzir esse impacto em uma direção positiva
É fácil cair numa visão cínica de que a IA generativa é prejudicial ou só faz perder tempo
Eu pessoalmente uso ferramentas de IA generativa todos os dias. Elas aumentaram materialmente minha produtividade e, mais importante, ampliaram minha ambição em relação aos projetos que realizo
Na semana passada, usei o ChatGPT para aprender em uma hora o AppleScript necessário para um novo projeto
Vou continuar explorando e compartilhando formas positivas de aplicar essa tecnologia

O que observar a seguir

A menos que o Facebook flexibilize as condições de licença, o LLaMA pode acabar ficando apenas como uma prova de conceito de que esse tipo de modelo roda em hardware de consumo
Agora começou uma corrida para lançar um modelo de linguagem totalmente aberto que ofereça funcionalidades semelhantes às do ChatGPT no próprio dispositivo das pessoas

3 comentários

ffdd270 2023-03-13

Há uma menção de que funciona no MacBook; para configurar o LLAMA no MacBook, consulte isto: https://dev.l1x.be/posts/2023/03/12/using-llama-with-m1-mac/

(Também ficaremos felizes se outra pessoa transformar isso em uma notícia 'm' b)

dkmin 2023-03-15

Obrigado por compartilhar.

xguru 2023-03-13

É um texto do Simon Willison, figura frequente no GeekNews.
Como ele defende, quando esse tipo de modelo de linguagem puder ser executado em dispositivos pessoais, acho que a "ambição do projeto/escopo de implementação se expande".
Mesmo quando penso em adicionar recursos relacionados ao ChatGPT ao GeekNews, acabo reconsiderando por causa do custo da API.
Agora que já dá para rodar LLMs em um nível bastante utilizável em equipamentos pessoais, espero que surjam aplicações em uma variedade maior de cenários.

Como também escrevi na GeekNews Weekly publicada hoje,
afinal, para que uma tendência tecnológica continue sendo discutida, é importante o quanto negócios reais baseados nessa tecnologia são desenvolvidos e lançados em um nível que realmente ajude os usuários.