27 pontos por GN⁺ 2024-12-30 | Ainda não há comentários. | Compartilhar no WhatsApp
  • É possível obter informações úteis para começar a executar LLMs localmente no subreddit r/LocalLLaMA e no blog do Ollama

Configuração de hardware

  • Uso um laptop baseado em Linux com CPU Core i9 (32 threads), GPU 4090 (16GB de VRAM) e 96GB de RAM
  • Modelos que cabem na VRAM funcionam rapidamente, e modelos grandes podem ser descarregados para a RAM, o que pode deixá-los mais lentos
  • Não é necessário um computador de alto desempenho, e modelos menores podem rodar até em GPUs antigas ou apenas na CPU

Ferramentas usadas

  • Ollama: middleware que inclui bibliotecas Python e JavaScript para executar o Llama.cpp, usado no Docker
  • Open WebUI: fornece uma interface amigável para entrada de texto e imagem
  • llamafile: permite executar LLMs em um único arquivo executável
  • AUTOMATIC1111 e Fooocus: ferramentas de geração de imagens; para fluxos de trabalho complexos, usa-se ComfyUI
  • Continue: oferece autocompletar de código no VSCode
  • Obsidian Smart Connections: fornece um recurso para consultar notas usando o Ollama

Escolha de modelos

  • Baixe os LLMs mais recentes pela página de modelos do Ollama
  • Acompanhe atualizações de modelos via RSS
  • Baixe modelos de geração de imagens no CivitAI (atenção: alguns modelos são otimizados para gerar imagens adultas)
  • Modelos usados principalmente:
    • Llama3.2: usado para consultas gerais e Smart Connections
    • Deepseek-coder-v2: conclusão de código no VSCode
    • Qwen2.5-coder: conversas relacionadas a código
    • Stable Diffusion: geração de imagens

Atualizações

  • Uso o WatchTower para atualizar contêineres Docker
  • Atualizo modelos pelo Open Web UI

Fine-tuning e quantização

  • No momento, não estou fazendo fine-tuning nem quantização (para evitar trabalhos longos em alta temperatura devido à possibilidade de defeito na CPU)

Conclusão

  • Executar LLMs localmente oferece controle total sobre os dados e baixa latência de resposta
  • Isso é possível graças a projetos open source e modelos gratuitos
  • Pretendo atualizar o conteúdo quando usar novas ferramentas ou modelos

Ainda não há comentários.

Ainda não há comentários.