- Agora é possível rodar o modelo Llama 3.3 70B da Meta, com desempenho em nível GPT-4, em um notebook comum (MacBook Pro M2 com 64 GB)
- Um grande avanço alcançado cerca de 20 meses após o lançamento do LLaMA, em março de 2023
- Ele roda localmente ao baixar 42 GB de dados do modelo via Ollama (também é possível rodá-lo com o MLX da Apple)
- São necessários 64 GB de RAM e, como o uso de memória é alto durante a execução, recomenda-se fechar outros apps que consumam muitos recursos
- Desempenho e benchmarks
- No benchmark LiveBench, ficou em 19º lugar, superando o Claude 3 Opus e ficando em um nível semelhante ao GPT-4 Turbo
- Em especial, registrou desempenho de topo na avaliação de compreensão de instruções (Instruction Following)
- Consegue realizar várias tarefas, como geração de texto, escrita de código e criação de imagens SVG
- Está se tornando cada vez mais possível rodar modelos poderosos até mesmo em dispositivos pessoais
- Outros modelos LLM de execução local que merecem atenção
- Qwen2.5-Coder-32B
- Modelo desenvolvido pela equipe de pesquisa Qwen, da Alibaba, e disponibilizado sob licença Apache 2.0
- Mostra excelente desempenho em tarefas de geração de código e pode ser usado livremente
- Uma ferramenta ainda mais relevante para desenvolvedores por ter licença open source
- QwQ
- Implementa um padrão de cadeia de raciocínio (chain-of-thought) semelhante ao da série o1 da OpenAI
- Consegue resolver problemas complexos passo a passo
- Também impressiona por rodar bem em ambiente local
- Llama 3.2 da Meta
- Os modelos de 1B e 3B podem rodar até em computadores pequenos, como um Raspberry Pi
- Oferecem ótimo desempenho para o tamanho e incluem também modelos multimodais de visão de 11B e 90B com capacidade de processamento de imagem
- Há diversas opções, desde modelos pequenos até modelos de grande porte
- Esses modelos mostram que a tecnologia de LLM está saindo do hardware de nível servidor e se tornando viável também em computadores pessoais comuns
- Com o avanço dos modelos open source, o ambiente para que desenvolvedores experimentem e criem aplicações livremente está se expandindo
- Perspectivas futuras
- São esperados grandes avanços em multimodalidade e eficiência dos modelos
- A tendência é de continuidade em um desenvolvimento focado mais em execução prática e eficiente de tarefas do que em AGI
- Mesmo os modelos atuais já devem permitir trabalho produtivo ao longo dos próximos anos
13 comentários
Deve rodar até em um M1 Max com 64 GB, né?
A menos que a pessoa não tenha absolutamente nenhum interesse por computadores, eu achava que, pra quem é dessa área, algo em torno de 64 GB já era o básico..
A menos que você lide com muitos dados, não é uma área em que dê para sentir uma grande diferença entre 16 e 64.
Também desenvolvo bem com 8 GB de RAM. Nem todo trabalho exige tanta memória assim.
Com 64 GB de RAM, parece ser algo bem acessível.
Hoje em dia, DDR5 de 16 GB para notebook custa só 60 mil won.
Também há muitos notebooks com 64 GB na faixa de 800 mil won.
No Mac, 64 GB de RAM equivalem a 64 GB de VRAM, então na prática o ponto de partida já é 300.
Como os Macs da série M têm a RAM compartilhada entre CPU e GPU, eles acabam tendo o efeito de ampliar a memória da GPU.
Depois de ver o post original, o título ficou pelo menos um pouco mais claro para mim. Porque é um post do tipo: o autor rodou o modelo Llama no notebook que ele tem! ... hahaha
Será que são 64 GB levando em conta até a execução de outros programas? Acho que são especificações pouco realistas para chamar de PC de consumo ou até mesmo de uso pessoal.
Nesse contexto, computador pessoal geralmente quer dizer algo como "está à venda no mercado B2C e pode ser comprado, independentemente do preço". Parecia estar bem longe de "todo mundo pode usar".
As situações variam bastante. Eu também uso um MacBook Pro de 96 GB para uso pessoal, e mesmo quando não estou desenvolvendo nada relacionado a LLM, o swap costuma encher com frequência.
64 GB de RAM em um notebook comum...?? T_T
Talvez seja mais correto dizer que é hardware de nível consumidor.