Darkbloom – rede pessoal de inferência de IA com Macs ociosos
(darkbloom.dev)- Darkbloom é uma rede que conecta Macs Apple Silicon ociosos para realizar inferência de IA distribuída, processando cargas de IA em dispositivos pessoais sem depender de nuvem centralizada
- Elimina a estrutura de margem tripla entre fabricantes de GPU, provedores de nuvem e APIs, alcançando redução de custos de até 70%
- Todas as solicitações são criptografadas de ponta a ponta, de modo que os operadores não podem ver os dados dos usuários, com confiança garantida por uma cadeia de atestação baseada no hardware de segurança da Apple
- Fornece uma API compatível com OpenAI, oferecendo os mesmos recursos dos SDKs existentes para chat, geração de imagens e reconhecimento de voz
- Os operadores ficam com 95% a 100% da receita e podem obter ganhos em USD com Macs ociosos, sem custos adicionais além da energia elétrica
Rede pessoal de inferência de IA com Macs ociosos
- Darkbloom é uma rede de inferência de IA distribuída desenvolvida pela Eigen Labs, que conecta Macs Apple Silicon ociosos para executar cargas de IA
- Hoje, a computação de IA passa por uma estrutura de margem em 3 etapas — fabricante de GPU → hyperscaler → provedor de API → usuário final — e a Darkbloom elimina isso para viabilizar redução de custos de até 70%
- Os operadores da rede não podem ver os dados dos usuários, e todas as solicitações são tratadas com criptografia de ponta a ponta
- A API é compatível com OpenAI e oferece suporte a chat, geração de imagens e reconhecimento de voz da mesma forma que os SDKs existentes
- Os operadores ficam com 95% a 100% da receita, com quase nenhum custo adicional além da eletricidade
Recursos para usuários
- Como o custo marginal do hardware ocioso é praticamente zero, a economia é refletida diretamente no preço para o usuário
- Por meio de uma API compatível com OpenAI, oferece chat, geração de imagens e conversão de fala em texto
- Todas as solicitações são transmitidas com criptografia de ponta a ponta
Recursos para proprietários de hardware
- Usuários com Macs Apple Silicon podem executar inferência de IA durante períodos de ociosidade e obter ganhos em USD
- Os operadores mantêm 100% da receita de inferência, e o custo de energia fica em torno de $0.01~$0.03 por hora
- O restante se converte em lucro líquido
Problemas estruturais do mercado de computação de IA
- Hoje, o mercado de computação de IA segue uma estrutura de margem tripla: fabricante de GPU → provedor de nuvem → empresa de IA → usuário final
- Por isso, o usuário final paga mais de 3 vezes o custo real do silício
- Em contrapartida, mais de 100 milhões de dispositivos Apple Silicon permanecem ociosos por mais de 18 horas por dia, em média
- Ao conectar esses recursos computacionais ociosos, torna-se possível usar ativos distribuídos de forma semelhante a Airbnb ou Uber
- A Darkbloom transforma esses Macs ociosos em nós de inferência de IA, substituindo infraestrutura centralizada
O problema da confiança e os desafios para resolvê-lo
- O ponto central de uma rede de computação distribuída é a confiabilidade
- Como os usuários precisam processar seus dados em dispositivos de terceiros desconhecidos, uma segurança baseada apenas em termos de uso não é suficiente
- Sem Privacidade Verificável (Verifiable Privacy), a inferência distribuída não é viável
A abordagem técnica da Darkbloom
-
Remoção dos caminhos de acesso
- Remove todos os caminhos de software pelos quais o operador poderia acessar os dados
- É composta por quatro camadas independentes, cada uma passível de verificação
-
Camada de criptografia
- As solicitações são criptografadas no dispositivo do usuário antes da transmissão
- O Coordinator roteia apenas o texto cifrado, e somente a chave de hardware do nó de destino pode descriptografá-lo
-
Camada de hardware
- Cada nó possui chaves geradas dentro do hardware de segurança da Apple
- A verificação é feita por meio de uma cadeia de atestação (attestation chain) derivada da Apple Root CA
-
Camada de runtime
- O processo de inferência é bloqueado no nível do sistema operacional
- Conexão de depurador e inspeção de memória são bloqueadas
- O operador não pode extrair dados do processo em execução
-
Camada de saída
- Todas as respostas podem ser verificadas com a assinatura daquele hardware
- Toda a cadeia de atestação é pública e pode ser verificada independentemente por qualquer pessoa
-
Como resultado, o operador executa a inferência, mas não pode ver os dados
- O prompt é criptografado antes da transmissão
- O Coordinator faz o roteamento sem conseguir ler o conteúdo
- O Provider descriptografa e executa em um ambiente isolado verificado
- A cadeia de atestação é pública, garantindo transparência
Detalhes de implementação
-
API compatível com OpenAI
- Totalmente compatível com os SDKs existentes da OpenAI
- Basta mudar a Base URL para usar o mesmo código
- Suporte a Streaming, Function Calling, Image Generation e Speech-to-Text
- Recursos compatíveis
- Streaming: baseado em SSE, formato OpenAI
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: suporte a modelos de até 239B parâmetros
Comparação de custos
- Como o custo marginal do hardware ocioso é quase zero, há redução de preço
- Sem assinatura nem exigência de uso mínimo
- Cerca de 50% mais barato que o OpenRouter
| Modelo | Entrada | Saída | OpenRouter | Redução |
|---|---|---|---|---|
| Gemma 4 26B4B | $0.03 | $0.20 | $0.40 | 50% |
| Qwen3.5 27B | $0.10 | $0.78 | $1.56 | 50% |
| Qwen3.5 122B MoE | $0.13 | $1.04 | $2.08 | 50% |
| MiniMax M2.5 239B | $0.06 | $0.50 | $1.00 | 50% |
- Geração de imagens: $0.0015/imagem (50% em relação ao Together.ai)
- Reconhecimento de voz: $0.001/minuto (50% em relação ao AssemblyAI)
- Taxa da plataforma 0%, com o operador mantendo 100% da receita
Economia para operadores
- Ao fornecer um dispositivo Apple Silicon, é possível obter ganhos em USD
- Sem custo adicional além da eletricidade, mantendo 100% da receita
- Suporte a instalação por CLI, com app de menu bar para macOS em desenvolvimento
-
Forma de instalação
- Baixa o binário do provider por comando de terminal e registra um serviço launchd
-
Sem dependências, atualizações automáticas, execução em segundo plano
- macOS 14 ou superior, somente Apple Silicon
-
Receita estimada
- É possível estimar a receita com base em 18 horas de operação por dia
- A receita real varia conforme a demanda da rede e a popularidade dos modelos
Pesquisa e catálogo de modelos
- O artigo de pesquisa explica em detalhes a arquitetura, o modelo de ameaças, a análise de segurança e o modelo econômico
- Trata de uma arquitetura de inferência privada baseada em verificação de hardware
- Link para download do PDF
-
Modelos disponíveis
- Gemma 4 26B: mais recente MoE multimodal do Google, com 4B de parâmetros ativos
- Qwen3.5 27B: modelo de raciocínio de alta qualidade (distillation de Claude Opus)
- Qwen3.5 122B MoE: 10B de parâmetros ativos, melhor qualidade por token
- MiniMax M2.5 239B: modelo SOTA para código, 100 tok/s no Mac Studio
- Cohere Transcribe: conformer 2B, conversão de fala em texto de altíssimo nível
2 comentários
Conceitualmente é interessante, mas fico em dúvida se isso vai realmente funcionar bem na prática. Como também apareceu nas opiniões do HN, um mercado de dois lados (
two-sided market) precisa ter sucesso em atrair clientes iniciais dos dois lados, então isso é um grande problema.Comentários do Hacker News
Achei difícil acreditar nos cálculos de receita deles
Se um Mac mini se paga em 2 a 4 meses e depois rende de 1 a 2 mil dólares por mês, fica a dúvida de por que eles simplesmente não compram Mac minis e os colocam para rodar
No momento não é assim, mas eles esperam que um dia seja. Por isso, não recomendam comprar um dispositivo novo. Se você rodar em um aparelho que já tem, o custo é praticamente zero
A conta de luz só ocorre quando chegam requisições, e nesse caso ela é compensada
Se tiver curiosidade, pode mandar DM para @gajesh
As economias de escala começam a pesar e você passa a querer centros cada vez maiores, mas isso custa caro e os vizinhos também não gostam
No fim, parece uma guerra assimétrica contra os hiperescaladores
Por exemplo, fica movimentado no horário do mercado acionário, mas fora disso é bem parado
Se não houver provisionamento excessivo, os clientes vão embora; se houver demais, a receita cai
De forma realista, parece algo em torno de 1/8 de utilização. Fazendo as contas no meu mini M4 Pro, dá cerca de US$ 24 por mês no modelo Gemma 4
Comprar e manter hardware por conta própria sai bem mais caro. O investimento inicial é a maior barreira de entrada
Dá para começar sem capital de VC e a diferenciação é clara
Só que alguém pode implementar a mesma ideia cobrando uma taxa mais alta, então conquistar o mercado cedo é importante
Eu mesmo instalei, e o nível de acabamento não pareceu alto
Houve muitos erros, como falha no download do modelo de imagem e falha ao carregar modelos de áudio/TTS
Deixei o Gemma servido por 15 minutos, mas recebi 0 requisições reais de inferência; só entraram vários health checks
No momento, a demanda é insuficiente, então a projeção de receita não fecha
Parece que agora estão focados em conseguir fornecedores, e conquistar clientes pagantes é urgente
Para usar esse serviço, é preciso instalar MDM (software de gerenciamento de dispositivos)
Na prática, a partir desse momento aquele computador fica sob o controle deles
Eu jamais recomendaria isso em um computador usado para tarefas sensíveis, como banco
Mas a política de privacidade deles é fraca, então é difícil confiar
Além disso, não faz sentido correr esse risco para ganhar alguns dólares por mês
Eles dizem usar TEE (Trusted Execution Environment) para verificar a integridade do modelo e do código
Já vi algo parecido na AWS, mas fico em dúvida se é possível proteger a memória ao usar GPU
O artigo relacionado pode ser visto aqui
O mais seguro é usar isso apenas para fins não comerciais, como classificação ou geração de imagens, em vez de dados sensíveis
O artigo afirma que a técnica de tabela de páginas do hipervisor protege a memória da GPU contra RDMA
Nos MacBooks de hoje, privacidade verificável é fisicamente impossível
Há o Secure Enclave, mas não é um enclave aberto como SGX/TDX/SEV
No fim, isso é apenas segurança no nível de endurecimento do SO, não um verdadeiro ambiente de execução confidencial
O macOS tem uma estrutura bastante confiável se for possível atestar remotamente a sequência de boot e a configuração de TCC
Não chega a ser SGX perfeito, mas em termos de usabilidade é melhor
Fazendo uma conta simples, meu M5 Pro gera 130 tokens por segundo (4 streams) com Gemma 4 26B
O preço da Darkbloom é US$ 0,20 por Mtok, então, rodando 24 horas por dia, a receita seria de cerca de US$ 67 por mês
Tirando a energia, dá um custo de cerca de US$ 9 por mês, então é algo como US$ 700 por ano de dinheiro extra
Pessoalmente, acho a ideia mais interessante do que a rentabilidade
Na conta de energia, eles usam o truque de subtrair 12W de consumo em idle, mas a maioria das pessoas não deixa o computador ligado 24 horas por dia
Já houve tentativas de armazenamento distribuído como a Cubbit, mas fracassaram
O que eu queria dizer para @eigengajesh é que o Mac Mini M4 Pro também tem opção de 64GB
E há vários bugs — falha ao carregar metallib, 404 no download de modelos, inconsistência na documentação sobre divisão de receita (100% vs 95%) etc.
No geral, há muito texto com cara de escrito por LLM, e talvez fosse melhor lapidar mais antes de publicar
Esse projeto me lembra o DataseamGrid, que era distribuído nos computadores da escola antigamente
Era uma rede de computação distribuída de conceito semelhante
É um conceito interessante. Um mercado bilateral (two-sided marketplace) é difícil de iniciar, mas a curiosidade pode servir de motor
Se incentivarem as pessoas não só a fornecer, mas também a usar o serviço elas mesmas, talvez consigam equilibrar oferta e demanda
Seria bom ter uma versão self-hosted para empresas. Muitas companhias têm estoque de Macs, então isso poderia virar uma rede interna de inferência
Privacidade baseada em hardware é interessante, mas economicamente o grande risco é o custo de carregamento
Por exemplo, no modelo MiniMax M2.5 239B, mesmo com apenas 11B dos 239B ativados, ainda é preciso carregar 120GB
Carregar isso de um SSD leva dezenas de segundos
Se a requisição for roteada para outro Mac, haverá latência de carregamento a frio toda vez
Manter o modelo sempre na memória aumenta a conta de energia; não fazer isso aumenta a latência
Especialmente em Macs de 16GB a 32GB, nem sequer dá para hospedar modelos grandes, então o número de fornecedores viáveis na prática é extremamente limitado