- Usando a biblioteca MLX para executar diretamente no Mac e servir localmente o poderoso e mais recente modelo Qwen3-30B-A3B-8bit
- Integrando isso ao Localforge no estilo da API da OpenAI para montar um loop de agente
- Configurando adicionalmente um modelo auxiliar baseado em ollama (Gemma3) para separar o papel de suporte ao agente e permitir uso mais eficiente das ferramentas
- Depois de configurar o agente na UI do Localforge, ele consegue executar "execução da ferramenta LS", criar websites e até rodar automaticamente um jogo da cobrinha
- Todo esse processo é gratuito e pode funcionar de forma totalmente autônoma em ambiente local; para usuários de Mac, é um projeto que vale a pena testar
Executando o Qwen3 localmente no Mac
Configuração do Localforge
- Site oficial: https://localforge.dev
- Após a instalação, é necessário fazer a seguinte configuração nas opções:
-
Adicionar provedores
- a) Provedor Ollama (modelo auxiliar)
- Nome: LocalOllama
- Tipo: ollama
- Instalação necessária: modelo gemma3:latest (adequado para processamento simples de linguagem)
-
b) Provedor Qwen3 (modelo principal)
-
Criar agente
- Nome: qwen3-agent
- Modelo principal: qwen3:mlx:30b (nome do modelo:
mlx-community/Qwen3-30B-A3B-8bit)
- Modelo auxiliar: LocalOllama (nome do modelo:
gemma3:latest)
Conclusão
- No Mac, é possível executar localmente um modelo grande de graça e fazer coding automatizado baseado em agentes
- Também é possível obter resultados mais refinados ajustando a escolha do modelo ou o system prompt
- Localforge + MLX + Qwen3 é uma combinação muito útil para experimentos pessoais com LLMs
3 comentários
Rodando localmente, 30b já é excelente, não é? O Qwen2.5-Coder não era grande coisa, mas esse parece valer a pena testar.
Qwen3 - Modelo de linguagem de próxima geração que pensa mais profundamente e age mais rápido
Comentários do Hacker News
Estou usando o modelo Qwen3-30B-A3B localmente e fiquei muito impressionado. Parece que pode ser uma alternativa para quem estava esperando pelo GPT-4. Estou conseguindo 70 tok/s em um M3 Max, então está bem agradável de usar
Rodar o qwen3 e fazer uma chamada da ferramenta
lsnão é "vibe coding". Isso parece mais propaganda do LocalForgeQuero elogiar o MLX e o MLX-LM. Estou usando para fazer fine-tuning local de modelos Gemma 3, e as bibliotecas e ferramentas feitas pelos desenvolvedores da Apple são bem estruturadas
Por acaso coloquei o Qwen3 em loop com um prompt simples
Alguém conhece uma configuração em que LLMs locais possam colaborar em tarefas com MCP, comprimir contexto ou cooperar com agentes na nuvem?
Quero compartilhar um tutorial rápido para rodar um agente realmente autônomo localmente e executar tarefas simples
Fico feliz por ter descoberto o LocalForge. Tenho uma pergunta sobre o LocalForge. É possível combinar dois agentes para passar imagens para um agente multimodal, fazer com que ele forneça html/css, e outro agente escreva o restante do código?
Muito impressionante. Não precisa ser tão bom quanto modelos pagos por token
Parece bom. Eu estava procurando uma IDE com assistência de IA e foco local para trabalhar com o Gemma 3 27B do Google
Rodar modelos localmente está começando a ficar interessante. Especialmente a versão 30B-A3B parece uma direção promissora. Ainda não chega lá com 16 GB de VRAM, mas já está bem acessível