Guia do Llama.cpp – como executar LLMs localmente do zero em qualquer hardware

(steelph0enix.github.io)

2 pontos por GN⁺ 2024-11-30 | 1 comentários | Compartilhar no WhatsApp

1 comentários

GN⁺ 2024-11-30

É positivo ver mais gente escrevendo em blogs, mas o processo de build do llama.cpp parece complicado
- É possível configurar os parâmetros de acordo com o hardware usando o comando ccmake . e então compilar
Relato de sucesso ao rodar o Llama.cpp em um notebook Dell antigo
- Funcionou até com especificações mínimas e, embora seja lento, forneceu respostas precisas
- Gostaria de testar modelos maiores em um hardware melhor
Queria instalar o Llama.cpp, mas acabou instalando o kobold.cpp, que tem uma UX melhor
Relato de tentativa de build no Windows com AMD
- Vulkan e MSYS2 foram a forma mais fácil de fazer funcionar
Pergunta sobre as limitações dos LLMs suportados pelo Llama.cpp
- Curiosidade sobre se ele suporta apenas certos modelos Transformer
Relato de migração para o Ollama
- A configuração de servidor e cliente do Ollama funciona de forma simples
Ênfase em que o Ollama não é apenas um wrapper simples do llama.cpp
- O Ollama oferece vários recursos para interface e empacotamento de modelos
Pergunta sobre por que usar o Llama.cpp em vez da interface web do ChatGPT
- Curiosidade sobre se o principal motivo é privacidade
Usa ChatGPT e Claude todos os dias, mas não consegue encontrar um motivo para usar LLMs fora desses serviços
Discussão sobre usar o Ollama ou rodar o llama.cpp diretamente
- Configurar CUDA nem sempre é fácil, e a inferência local pode ser mais rápida
- Rodar com PyTorch é mais fácil, e modelos AWQ podem ser instalados de forma simples