Guia de como executar o Llama 2 localmente

(replicate.com)

5 pontos por GN⁺ 2023-07-26 | 2 comentários | Compartilhar no WhatsApp

É possível executar o Llama 2 no seu próprio dispositivo sem conexão com a internet.
Há três ferramentas open source para executar o Llama 2 localmente: Llama.cpp, Ollama e MLC LLM.
Llama.cpp é um port do Llama em C/C++ com suporte para Mac, Windows e Linux.
Ollama é um app para macOS que permite executar o Llama 2 por meio de uma interface de linha de comando.
Com o MLC LLM, é possível executar o Llama 2 em celulares, incluindo iOS e Android.
O Ollama recomenda no mínimo 8 GB de RAM para executar o modelo 3B, 16 GB para o modelo 7B e 32 GB para o modelo 13B.
O MLC LLM oferece suporte às versões 7B, 13B e 70B do Llama 2, mas ainda está em beta para usuários de iPhone.
É possível compartilhar criações e obter suporte na comunidade do Discord.
A Replicate oferece opções para executar e fazer fine-tuning do Llama 2 na nuvem.

2 comentários

haebom 2023-07-28

Estou rodando no Mac Studio M2 e funciona bem.

GN⁺ 2023-07-26

Um usuário fornece instruções para compilar o Llama 2 no Windows, incluindo a instalação do CUDA Toolkit e o download do modelo.
Uma função PowerShell é compartilhada para facilitar a execução do Llama 2.
É mencionada uma transmissão de programação ao vivo ajustando finamente o Llama 2 no Google Colab A100 GPU usando PEFT/Lora.
Um comentarista sugere usar a inferência do Hugging Face para utilizar a GPU em uma máquina Linux.
É compartilhado um fork do código original do Llama 2 que pode ser executado em CPU ou MPS (GPU M1/M2).
O GPT4All é recomendado para usar o Llama 2 com facilidade no MacOS ou Windows.
É levantado um alerta sobre fazer pipe de scripts diretamente de sites para o bash.
Um comentarista discute o potencial do Llama 2 para interpretar e usar imagens.
Levanta-se a dúvida sobre qual seria o objetivo de usar o Llama 2 além de pesquisa.
São mencionadas limitações dos modelos LLM, incluindo a recusa em gerar um objeto JSON sobre o filme 'Matrix'.