1 comentários

 
GN⁺ 2024-11-30
Comentários do Hacker News
  • É positivo ver mais gente escrevendo em blogs, mas o processo de build do llama.cpp parece complicado

    • É possível configurar os parâmetros de acordo com o hardware usando o comando ccmake . e então compilar
  • Relato de sucesso ao rodar o Llama.cpp em um notebook Dell antigo

    • Funcionou até com especificações mínimas e, embora seja lento, forneceu respostas precisas
    • Gostaria de testar modelos maiores em um hardware melhor
  • Queria instalar o Llama.cpp, mas acabou instalando o kobold.cpp, que tem uma UX melhor

  • Relato de tentativa de build no Windows com AMD

    • Vulkan e MSYS2 foram a forma mais fácil de fazer funcionar
  • Pergunta sobre as limitações dos LLMs suportados pelo Llama.cpp

    • Curiosidade sobre se ele suporta apenas certos modelos Transformer
  • Relato de migração para o Ollama

    • A configuração de servidor e cliente do Ollama funciona de forma simples
  • Ênfase em que o Ollama não é apenas um wrapper simples do llama.cpp

    • O Ollama oferece vários recursos para interface e empacotamento de modelos
  • Pergunta sobre por que usar o Llama.cpp em vez da interface web do ChatGPT

    • Curiosidade sobre se o principal motivo é privacidade
  • Usa ChatGPT e Claude todos os dias, mas não consegue encontrar um motivo para usar LLMs fora desses serviços

  • Discussão sobre usar o Ollama ou rodar o llama.cpp diretamente

    • Configurar CUDA nem sempre é fácil, e a inferência local pode ser mais rápida
    • Rodar com PyTorch é mais fácil, e modelos AWQ podem ser instalados de forma simples