Executando LLMs localmente

(abishekmuthian.com)

27 pontos por GN⁺ 2024-12-30 | Ainda não há comentários. | Compartilhar no WhatsApp

É possível obter informações úteis para começar a executar LLMs localmente no subreddit r/LocalLLaMA e no blog do Ollama

Configuração de hardware

Uso um laptop baseado em Linux com CPU Core i9 (32 threads), GPU 4090 (16GB de VRAM) e 96GB de RAM
Modelos que cabem na VRAM funcionam rapidamente, e modelos grandes podem ser descarregados para a RAM, o que pode deixá-los mais lentos
Não é necessário um computador de alto desempenho, e modelos menores podem rodar até em GPUs antigas ou apenas na CPU

Ollama: middleware que inclui bibliotecas Python e JavaScript para executar o Llama.cpp, usado no Docker
Open WebUI: fornece uma interface amigável para entrada de texto e imagem
llamafile: permite executar LLMs em um único arquivo executável
AUTOMATIC1111 e Fooocus: ferramentas de geração de imagens; para fluxos de trabalho complexos, usa-se ComfyUI
Continue: oferece autocompletar de código no VSCode
Obsidian Smart Connections: fornece um recurso para consultar notas usando o Ollama

Baixe os LLMs mais recentes pela página de modelos do Ollama
Acompanhe atualizações de modelos via RSS
Baixe modelos de geração de imagens no CivitAI (atenção: alguns modelos são otimizados para gerar imagens adultas)
Modelos usados principalmente:
- Llama3.2: usado para consultas gerais e Smart Connections
- Deepseek-coder-v2: conclusão de código no VSCode
- Qwen2.5-coder: conversas relacionadas a código
- Stable Diffusion: geração de imagens

No momento, não estou fazendo fine-tuning nem quantização (para evitar trabalhos longos em alta temperatura devido à possibilidade de defeito na CPU)

Executar LLMs localmente oferece controle total sobre os dados e baixa latência de resposta
Isso é possível graças a projetos open source e modelos gratuitos
Pretendo atualizar o conteúdo quando usar novas ferramentas ou modelos