18 pontos por GN⁺ 2025-05-02 | 3 comentários | Compartilhar no WhatsApp
  • Usando a biblioteca MLX para executar diretamente no Mac e servir localmente o poderoso e mais recente modelo Qwen3-30B-A3B-8bit
  • Integrando isso ao Localforge no estilo da API da OpenAI para montar um loop de agente
  • Configurando adicionalmente um modelo auxiliar baseado em ollama (Gemma3) para separar o papel de suporte ao agente e permitir uso mais eficiente das ferramentas
  • Depois de configurar o agente na UI do Localforge, ele consegue executar "execução da ferramenta LS", criar websites e até rodar automaticamente um jogo da cobrinha
  • Todo esse processo é gratuito e pode funcionar de forma totalmente autônoma em ambiente local; para usuários de Mac, é um projeto que vale a pena testar

Executando o Qwen3 localmente no Mac

  • Objetivo: executar o modelo mais recente Qwen3 no Mac e transformá-lo em agente com o Localforge para testar automação de coding
  • O Qwen3 está disponível no Ollama e na comunidade MLX do HuggingFace
  • Etapa 1: instalar o ambiente MLX

    pip install mlx  
    pip install mlx-lm  
    
  • Etapa 2: iniciar o servidor do modelo

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • O modelo é baixado automaticamente e iniciado como servidor de API na porta 8082
    • Se a mensagem "Starting httpd..." aparecer no log, a execução foi bem-sucedida

Configuração do Localforge

  • Site oficial: https://localforge.dev
  • Após a instalação, é necessário fazer a seguinte configuração nas opções:
  • Adicionar provedores

    • a) Provedor Ollama (modelo auxiliar)
      • Nome: LocalOllama
      • Tipo: ollama
      • Instalação necessária: modelo gemma3:latest (adequado para processamento simples de linguagem)
    • b) Provedor Qwen3 (modelo principal)

  • Criar agente

    • Nome: qwen3-agent
    • Modelo principal: qwen3:mlx:30b (nome do modelo: mlx-community/Qwen3-30B-A3B-8bit)
    • Modelo auxiliar: LocalOllama (nome do modelo: gemma3:latest)

Conclusão

  • No Mac, é possível executar localmente um modelo grande de graça e fazer coding automatizado baseado em agentes
  • Também é possível obter resultados mais refinados ajustando a escolha do modelo ou o system prompt
  • Localforge + MLX + Qwen3 é uma combinação muito útil para experimentos pessoais com LLMs

3 comentários

 
ragingwind 2025-05-02

Rodando localmente, 30b já é excelente, não é? O Qwen2.5-Coder não era grande coisa, mas esse parece valer a pena testar.

 
GN⁺ 2025-05-02
Comentários do Hacker News
  • Estou usando o modelo Qwen3-30B-A3B localmente e fiquei muito impressionado. Parece que pode ser uma alternativa para quem estava esperando pelo GPT-4. Estou conseguindo 70 tok/s em um M3 Max, então está bem agradável de usar

    • Fiquei especialmente impressionado com o fato de o modelo 0.6B poder ser útil para tarefas menos importantes mesmo entre modelos abaixo de 1B
    • No geral, é muito impressionante, e estou avaliando maneiras de integrá-lo à minha configuração atual
  • Rodar o qwen3 e fazer uma chamada da ferramenta ls não é "vibe coding". Isso parece mais propaganda do LocalForge

    • Na prática, não parece que funcionaria bem para trabalho realmente autônomo, como ler vários arquivos, explorar diretórios e descobrir onde fazer alterações
  • Quero elogiar o MLX e o MLX-LM. Estou usando para fazer fine-tuning local de modelos Gemma 3, e as bibliotecas e ferramentas feitas pelos desenvolvedores da Apple são bem estruturadas

  • Por acaso coloquei o Qwen3 em loop com um prompt simples

    • Usei o prompt "crie um decorador em Python que use uma trie para roteamento de tópicos MQTT"
    • O phi4-reasoning funciona, mas parece ter bugs no código
    • O phi4-mini-reasoning fica confuso
    • O qwen3:30b entra em loop e esquece o decorador
    • O mistral-small entende o ponto rapidamente e o código parece correto
    • Uso modelos do Copilot regularmente, e Claude 3.7 e Gemini geram código utilizável com testes. Mas os modelos locais ainda não parecem ter esse nível de capacidade
  • Alguém conhece uma configuração em que LLMs locais possam colaborar em tarefas com MCP, comprimir contexto ou cooperar com agentes na nuvem?

    • Parece meio bobo um novo equipamento com M3 só renderizar a UI enquanto um LLM na nuvem refatora a base de código. Parece que eles deveriam conseguir coordenar o trabalho entre si
  • Quero compartilhar um tutorial rápido para rodar um agente realmente autônomo localmente e executar tarefas simples

    • Ainda estou tentando encontrar a configuração correta de MLX ou a versão adequada do modelo, mas o framework dessa abordagem é sólido
  • Fico feliz por ter descoberto o LocalForge. Tenho uma pergunta sobre o LocalForge. É possível combinar dois agentes para passar imagens para um agente multimodal, fazer com que ele forneça html/css, e outro agente escreva o restante do código?

    • No post são mencionados Gemma3 (multimodal) e Qwen3 (não multimodal). Dá para usar dessa forma?
    • Tenho curiosidade sobre como o LocalForge sabe para qual agente rotear o prompt
  • Muito impressionante. Não precisa ser tão bom quanto modelos pagos por token

    • Por exemplo, no mês passado gastei pelo menos $300 com vibe coding. Isso porque queria conhecer ferramentas concorrentes e queria reescrever em outra linguagem de programação depois de concluir a implementação de um side project
    • Mesmo se eu aliviar um pouco aqui, um notebook Nvidia recondicionado poderia se pagar em um ano. É decepcionante que o Ollama ainda não consiga lidar com o fluxo completo. Talvez isso pudesse ser feito com um único comando
  • Parece bom. Eu estava procurando uma IDE com assistência de IA e foco local para trabalhar com o Gemma 3 27B do Google

    • Acho que deveria ser divulgado que o LocalForge é o projeto da própria pessoa
  • Rodar modelos localmente está começando a ficar interessante. Especialmente a versão 30B-A3B parece uma direção promissora. Ainda não chega lá com 16 GB de VRAM, mas já está bem acessível

    • Estou aguardando as novas placas Nvidia RTX com 24/32 GB de VRAM. Acho que em alguns anos isso pode chegar ao nível do GPT-4. Isso seria útil para várias tarefas