Agora já é possível rodar um modelo nível GPT-4 com o Llama 3.3 70B em um notebook

xguru · 2024-12-11T10:02:02+09:00

Agora é possível rodar o modelo Llama 3.3 70B da Meta, com desempenho em nível GPT-4, em um notebook comum (MacBook Pro M2 com 64 GB) Um grande avanço alcançado cerca de 20 meses após o lançamento do LLaMA, em março de 2023 Ele roda localmente ao baixar 42 GB de dados do modelo via Ollama (também é possível rodá-lo com o MLX da Apple) São necessários 64 GB de RAM e, como o uso de memória é alto durante a execução, recomenda-se fechar outros apps que consumam muitos recursos Desempenho e benchmarks No benchmark LiveBench, ficou em 19º lugar, superando o Claude 3 Opus e ficando em um nível semelhante ao GPT-4 Turbo Em especial, registrou desempenho de topo na avaliação de compreensão de instruções (Instruction Following) Consegue realizar várias tarefas, como geração de texto, escrita de código e criação de imagens SVG Está se tornando cada vez mais possível rodar modelos poderosos até mesmo em dispositivos pessoais Outros modelos LLM de execução local que merecem atenção Qwen2.5-Coder-32B Modelo desenvolvido pela equipe de pesquisa Qwen, da Alibaba, e disponibilizado sob licença Apache 2.0 Mostra excelente desempenho em tarefas de geração de código e pode ser usado livremente Uma ferramenta ainda mais relevante para desenvolvedores por ter licença open source QwQ Implementa um padrão de cadeia de raciocínio (chain-of-thought) semelhante ao da série o1 da OpenAI Consegue resolver problemas complexos passo a passo Também impressiona por rodar bem em ambiente local Llama 3.2 da Meta Os modelos de 1B e 3B podem rodar até em computadores pequenos, como um Raspberry Pi Oferecem ótimo desempenho para o tamanho e incluem também modelos multimodais de visão de 11B e 90B com capacidade de processamento de imagem Há diversas opções, desde modelos pequenos até modelos de grande porte Esses modelos mostram que a tecnologia de LLM está saindo do hardware de nível servidor e se tornando viável também em computadores pessoais comuns Com o avanço dos modelos open source, o ambiente para que desenvolvedores experimentem e criem aplicações livremente está se expandindo Perspectivas futuras São esperados grandes avanços em multimodalidade e eficiência dos modelos A tendência é de continuidade em um desenvolvimento focado mais em execução prática e eficiente de tarefas do que em AGI Mesmo os modelos atuais já devem permitir trabalho produtivo ao longo dos próximos anos

(simonwillison.net)

22 pontos por xguru 2024-12-11 | 13 comentários | Compartilhar no WhatsApp

Agora é possível rodar o modelo Llama 3.3 70B da Meta, com desempenho em nível GPT-4, em um notebook comum (MacBook Pro M2 com 64 GB)
Um grande avanço alcançado cerca de 20 meses após o lançamento do LLaMA, em março de 2023
Ele roda localmente ao baixar 42 GB de dados do modelo via Ollama (também é possível rodá-lo com o MLX da Apple)
- São necessários 64 GB de RAM e, como o uso de memória é alto durante a execução, recomenda-se fechar outros apps que consumam muitos recursos
Desempenho e benchmarks
- No benchmark LiveBench, ficou em 19º lugar, superando o Claude 3 Opus e ficando em um nível semelhante ao GPT-4 Turbo
- Em especial, registrou desempenho de topo na avaliação de compreensão de instruções (Instruction Following)
- Consegue realizar várias tarefas, como geração de texto, escrita de código e criação de imagens SVG
Está se tornando cada vez mais possível rodar modelos poderosos até mesmo em dispositivos pessoais
Outros modelos LLM de execução local que merecem atenção
- Qwen2.5-Coder-32B
  - Modelo desenvolvido pela equipe de pesquisa Qwen, da Alibaba, e disponibilizado sob licença Apache 2.0
  - Mostra excelente desempenho em tarefas de geração de código e pode ser usado livremente
  - Uma ferramenta ainda mais relevante para desenvolvedores por ter licença open source
- QwQ
  - Implementa um padrão de cadeia de raciocínio (chain-of-thought) semelhante ao da série o1 da OpenAI
  - Consegue resolver problemas complexos passo a passo
  - Também impressiona por rodar bem em ambiente local
- Llama 3.2 da Meta
  - Os modelos de 1B e 3B podem rodar até em computadores pequenos, como um Raspberry Pi
  - Oferecem ótimo desempenho para o tamanho e incluem também modelos multimodais de visão de 11B e 90B com capacidade de processamento de imagem
  - Há diversas opções, desde modelos pequenos até modelos de grande porte
- Esses modelos mostram que a tecnologia de LLM está saindo do hardware de nível servidor e se tornando viável também em computadores pessoais comuns
- Com o avanço dos modelos open source, o ambiente para que desenvolvedores experimentem e criem aplicações livremente está se expandindo
Perspectivas futuras
- São esperados grandes avanços em multimodalidade e eficiência dos modelos
- A tendência é de continuidade em um desenvolvimento focado mais em execução prática e eficiente de tarefas do que em AGI
- Mesmo os modelos atuais já devem permitir trabalho produtivo ao longo dos próximos anos

13 comentários

javaguardian 2024-12-16

Deve rodar até em um M1 Max com 64 GB, né?

ndrgrd 2024-12-13

A menos que a pessoa não tenha absolutamente nenhum interesse por computadores, eu achava que, pra quem é dessa área, algo em torno de 64 GB já era o básico..

plenty 2024-12-13

A menos que você lide com muitos dados, não é uma área em que dê para sentir uma grande diferença entre 16 e 64.

savvykang 2024-12-13

Também desenvolvo bem com 8 GB de RAM. Nem todo trabalho exige tanta memória assim.

felizgeek 2024-12-13

Com 64 GB de RAM, parece ser algo bem acessível.
Hoje em dia, DDR5 de 16 GB para notebook custa só 60 mil won.
Também há muitos notebooks com 64 GB na faixa de 800 mil won.

riskatcher 2024-12-13

No Mac, 64 GB de RAM equivalem a 64 GB de VRAM, então na prática o ponto de partida já é 300.

plenty 2024-12-13

Como os Macs da série M têm a RAM compartilhada entre CPU e GPU, eles acabam tendo o efeito de ampliar a memória da GPU.

ifmkl 2024-12-11

Depois de ver o post original, o título ficou pelo menos um pouco mais claro para mim. Porque é um post do tipo: o autor rodou o modelo Llama no notebook que ele tem! ... hahaha

savvykang 2024-12-11

Será que são 64 GB levando em conta até a execução de outros programas? Acho que são especificações pouco realistas para chamar de PC de consumo ou até mesmo de uso pessoal.

ffdd270 2024-12-11

Nesse contexto, computador pessoal geralmente quer dizer algo como "está à venda no mercado B2C e pode ser comprado, independentemente do preço". Parecia estar bem longe de "todo mundo pode usar".

stargt 2024-12-11

As situações variam bastante. Eu também uso um MacBook Pro de 96 GB para uso pessoal, e mesmo quando não estou desenvolvendo nada relacionado a LLM, o swap costuma encher com frequência.

huiya 2024-12-11

64 GB de RAM em um notebook comum...?? T_T

dhy0613 2024-12-11

Talvez seja mais correto dizer que é hardware de nível consumidor.

Agora já é possível rodar um modelo nível GPT-4 com o Llama 3.3 70B em um notebook

Leituras relacionadas

13 comentários