Executando o Qwen3 no MacBook para fazer vibe coding de graça

(localforge.dev)

18 pontos por GN⁺ 2025-05-02 | 3 comentários | Compartilhar no WhatsApp

Usando a biblioteca MLX para executar diretamente no Mac e servir localmente o poderoso e mais recente modelo Qwen3-30B-A3B-8bit
Integrando isso ao Localforge no estilo da API da OpenAI para montar um loop de agente
Configurando adicionalmente um modelo auxiliar baseado em ollama (Gemma3) para separar o papel de suporte ao agente e permitir uso mais eficiente das ferramentas
Depois de configurar o agente na UI do Localforge, ele consegue executar "execução da ferramenta LS", criar websites e até rodar automaticamente um jogo da cobrinha
Todo esse processo é gratuito e pode funcionar de forma totalmente autônoma em ambiente local; para usuários de Mac, é um projeto que vale a pena testar

Executando o Qwen3 localmente no Mac

Objetivo: executar o modelo mais recente Qwen3 no Mac e transformá-lo em agente com o Localforge para testar automação de coding
O Qwen3 está disponível no Ollama e na comunidade MLX do HuggingFace
- Qwen3 on Ollama
- Qwen3 on Huggingface MLX
Etapa 1: instalar o ambiente MLX
```
pip install mlx  
pip install mlx-lm  
```
Etapa 2: iniciar o servidor do modelo
```
mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
```
- O modelo é baixado automaticamente e iniciado como servidor de API na porta 8082
- Se a mensagem "Starting httpd..." aparecer no log, a execução foi bem-sucedida

Configuração do Localforge

Site oficial: https://localforge.dev
Após a instalação, é necessário fazer a seguinte configuração nas opções:
Adicionar provedores
- a) Provedor Ollama (modelo auxiliar)
  - Nome: LocalOllama
  - Tipo: ollama
  - Instalação necessária: modelo gemma3:latest (adequado para processamento simples de linguagem)
- b) Provedor Qwen3 (modelo principal)
  - Nome: qwen3:mlx:30b
  - Tipo: openai
  - Chave de API: "not-needed"
  - URL da API: http://127.0.0.1:8082/v1/
Criar agente
- Nome: qwen3-agent
- Modelo principal: qwen3:mlx:30b (nome do modelo: mlx-community/Qwen3-30B-A3B-8bit)
- Modelo auxiliar: LocalOllama (nome do modelo: gemma3:latest)

Conclusão

No Mac, é possível executar localmente um modelo grande de graça e fazer coding automatizado baseado em agentes
Também é possível obter resultados mais refinados ajustando a escolha do modelo ou o system prompt
Localforge + MLX + Qwen3 é uma combinação muito útil para experimentos pessoais com LLMs

3 comentários

ragingwind 2025-05-02

Rodando localmente, 30b já é excelente, não é? O Qwen2.5-Coder não era grande coisa, mas esse parece valer a pena testar.

xguru 2025-05-02

Qwen3 - Modelo de linguagem de próxima geração que pensa mais profundamente e age mais rápido

GN⁺ 2025-05-02

Comentários do Hacker News

Estou usando o modelo Qwen3-30B-A3B localmente e fiquei muito impressionado. Parece que pode ser uma alternativa para quem estava esperando pelo GPT-4. Estou conseguindo 70 tok/s em um M3 Max, então está bem agradável de usar
- Fiquei especialmente impressionado com o fato de o modelo 0.6B poder ser útil para tarefas menos importantes mesmo entre modelos abaixo de 1B
- No geral, é muito impressionante, e estou avaliando maneiras de integrá-lo à minha configuração atual
Rodar o qwen3 e fazer uma chamada da ferramenta ls não é "vibe coding". Isso parece mais propaganda do LocalForge
- Na prática, não parece que funcionaria bem para trabalho realmente autônomo, como ler vários arquivos, explorar diretórios e descobrir onde fazer alterações
Quero elogiar o MLX e o MLX-LM. Estou usando para fazer fine-tuning local de modelos Gemma 3, e as bibliotecas e ferramentas feitas pelos desenvolvedores da Apple são bem estruturadas
Por acaso coloquei o Qwen3 em loop com um prompt simples
- Usei o prompt "crie um decorador em Python que use uma trie para roteamento de tópicos MQTT"
- O phi4-reasoning funciona, mas parece ter bugs no código
- O phi4-mini-reasoning fica confuso
- O qwen3:30b entra em loop e esquece o decorador
- O mistral-small entende o ponto rapidamente e o código parece correto
- Uso modelos do Copilot regularmente, e Claude 3.7 e Gemini geram código utilizável com testes. Mas os modelos locais ainda não parecem ter esse nível de capacidade
Alguém conhece uma configuração em que LLMs locais possam colaborar em tarefas com MCP, comprimir contexto ou cooperar com agentes na nuvem?
- Parece meio bobo um novo equipamento com M3 só renderizar a UI enquanto um LLM na nuvem refatora a base de código. Parece que eles deveriam conseguir coordenar o trabalho entre si
Quero compartilhar um tutorial rápido para rodar um agente realmente autônomo localmente e executar tarefas simples
- Ainda estou tentando encontrar a configuração correta de MLX ou a versão adequada do modelo, mas o framework dessa abordagem é sólido
Fico feliz por ter descoberto o LocalForge. Tenho uma pergunta sobre o LocalForge. É possível combinar dois agentes para passar imagens para um agente multimodal, fazer com que ele forneça html/css, e outro agente escreva o restante do código?
- No post são mencionados Gemma3 (multimodal) e Qwen3 (não multimodal). Dá para usar dessa forma?
- Tenho curiosidade sobre como o LocalForge sabe para qual agente rotear o prompt
Muito impressionante. Não precisa ser tão bom quanto modelos pagos por token
- Por exemplo, no mês passado gastei pelo menos $300 com vibe coding. Isso porque queria conhecer ferramentas concorrentes e queria reescrever em outra linguagem de programação depois de concluir a implementação de um side project
- Mesmo se eu aliviar um pouco aqui, um notebook Nvidia recondicionado poderia se pagar em um ano. É decepcionante que o Ollama ainda não consiga lidar com o fluxo completo. Talvez isso pudesse ser feito com um único comando
Parece bom. Eu estava procurando uma IDE com assistência de IA e foco local para trabalhar com o Gemma 3 27B do Google
- Acho que deveria ser divulgado que o LocalForge é o projeto da própria pessoa
Rodar modelos localmente está começando a ficar interessante. Especialmente a versão 30B-A3B parece uma direção promissora. Ainda não chega lá com 16 GB de VRAM, mas já está bem acessível
- Estou aguardando as novas placas Nvidia RTX com 24/32 GB de VRAM. Acho que em alguns anos isso pode chegar ao nível do GPT-4. Isso seria útil para várias tarefas

Executando o Qwen3 no MacBook para fazer vibe coding de graça

Executando o Qwen3 localmente no Mac

Etapa 1: instalar o ambiente MLX

Etapa 2: iniciar o servidor do modelo

Configuração do Localforge

Adicionar provedores

b) Provedor Qwen3 (modelo principal)

Criar agente

Conclusão

Leituras relacionadas

3 comentários

Comentários do Hacker News