Executando LLMs localmente
(abishekmuthian.com)- É possível obter informações úteis para começar a executar LLMs localmente no subreddit r/LocalLLaMA e no blog do Ollama
Configuração de hardware
- Uso um laptop baseado em Linux com CPU Core i9 (32 threads), GPU 4090 (16GB de VRAM) e 96GB de RAM
- Modelos que cabem na VRAM funcionam rapidamente, e modelos grandes podem ser descarregados para a RAM, o que pode deixá-los mais lentos
- Não é necessário um computador de alto desempenho, e modelos menores podem rodar até em GPUs antigas ou apenas na CPU
Ferramentas usadas
- Ollama: middleware que inclui bibliotecas Python e JavaScript para executar o Llama.cpp, usado no Docker
- Open WebUI: fornece uma interface amigável para entrada de texto e imagem
- llamafile: permite executar LLMs em um único arquivo executável
- AUTOMATIC1111 e Fooocus: ferramentas de geração de imagens; para fluxos de trabalho complexos, usa-se ComfyUI
- Continue: oferece autocompletar de código no VSCode
- Obsidian Smart Connections: fornece um recurso para consultar notas usando o Ollama
Escolha de modelos
- Baixe os LLMs mais recentes pela página de modelos do Ollama
- Acompanhe atualizações de modelos via RSS
- Baixe modelos de geração de imagens no CivitAI (atenção: alguns modelos são otimizados para gerar imagens adultas)
- Modelos usados principalmente:
- Llama3.2: usado para consultas gerais e Smart Connections
- Deepseek-coder-v2: conclusão de código no VSCode
- Qwen2.5-coder: conversas relacionadas a código
- Stable Diffusion: geração de imagens
Atualizações
- Uso o WatchTower para atualizar contêineres Docker
- Atualizo modelos pelo Open Web UI
Fine-tuning e quantização
- No momento, não estou fazendo fine-tuning nem quantização (para evitar trabalhos longos em alta temperatura devido à possibilidade de defeito na CPU)
Conclusão
- Executar LLMs localmente oferece controle total sobre os dados e baixa latência de resposta
- Isso é possível graças a projetos open source e modelos gratuitos
- Pretendo atualizar o conteúdo quando usar novas ferramentas ou modelos
Ainda não há comentários.