Guia do Llama.cpp – como executar LLMs localmente do zero em qualquer hardware (steelph0enix.github.io) 2 pontos por GN⁺ 2024-11-30 | 1 comentários | Compartilhar no WhatsApp Leituras relacionadas Executando LLMs localmente 27 pontos · 0 comentários · 2024-12-30 ntransformer - motor de inferência NVMe-to-GPU para rodar Llama 3.1 70B em uma única RTX 3090 15 pontos · 1 comentários · 2026-02-23 Ask HN: Qual é o melhor LLM que dá para usar em hardware de consumo? 13 pontos · 1 comentários · 2025-06-01 1 comentários GN⁺ 2024-11-30 Comentários do Hacker News É positivo ver mais gente escrevendo em blogs, mas o processo de build do llama.cpp parece complicado É possível configurar os parâmetros de acordo com o hardware usando o comando ccmake . e então compilar Relato de sucesso ao rodar o Llama.cpp em um notebook Dell antigo Funcionou até com especificações mínimas e, embora seja lento, forneceu respostas precisas Gostaria de testar modelos maiores em um hardware melhor Queria instalar o Llama.cpp, mas acabou instalando o kobold.cpp, que tem uma UX melhor Relato de tentativa de build no Windows com AMD Vulkan e MSYS2 foram a forma mais fácil de fazer funcionar Pergunta sobre as limitações dos LLMs suportados pelo Llama.cpp Curiosidade sobre se ele suporta apenas certos modelos Transformer Relato de migração para o Ollama A configuração de servidor e cliente do Ollama funciona de forma simples Ênfase em que o Ollama não é apenas um wrapper simples do llama.cpp O Ollama oferece vários recursos para interface e empacotamento de modelos Pergunta sobre por que usar o Llama.cpp em vez da interface web do ChatGPT Curiosidade sobre se o principal motivo é privacidade Usa ChatGPT e Claude todos os dias, mas não consegue encontrar um motivo para usar LLMs fora desses serviços Discussão sobre usar o Ollama ou rodar o llama.cpp diretamente Configurar CUDA nem sempre é fácil, e a inferência local pode ser mais rápida Rodar com PyTorch é mais fácil, e modelos AWQ podem ser instalados de forma simples
1 comentários
Comentários do Hacker News
É positivo ver mais gente escrevendo em blogs, mas o processo de build do llama.cpp parece complicado
ccmake .e então compilarRelato de sucesso ao rodar o Llama.cpp em um notebook Dell antigo
Queria instalar o Llama.cpp, mas acabou instalando o kobold.cpp, que tem uma UX melhor
Relato de tentativa de build no Windows com AMD
Pergunta sobre as limitações dos LLMs suportados pelo Llama.cpp
Relato de migração para o Ollama
Ênfase em que o Ollama não é apenas um wrapper simples do llama.cpp
Pergunta sobre por que usar o Llama.cpp em vez da interface web do ChatGPT
Usa ChatGPT e Claude todos os dias, mas não consegue encontrar um motivo para usar LLMs fora desses serviços
Discussão sobre usar o Ollama ou rodar o llama.cpp diretamente