Darkbloom – rede pessoal de inferência de IA com Macs ociosos

(darkbloom.dev)

1 pontos por GN⁺ 13 일 전 | 2 comentários | Compartilhar no WhatsApp

Darkbloom é uma rede que conecta Macs Apple Silicon ociosos para realizar inferência de IA distribuída, processando cargas de IA em dispositivos pessoais sem depender de nuvem centralizada
Elimina a estrutura de margem tripla entre fabricantes de GPU, provedores de nuvem e APIs, alcançando redução de custos de até 70%
Todas as solicitações são criptografadas de ponta a ponta, de modo que os operadores não podem ver os dados dos usuários, com confiança garantida por uma cadeia de atestação baseada no hardware de segurança da Apple
Fornece uma API compatível com OpenAI, oferecendo os mesmos recursos dos SDKs existentes para chat, geração de imagens e reconhecimento de voz
Os operadores ficam com 95% a 100% da receita e podem obter ganhos em USD com Macs ociosos, sem custos adicionais além da energia elétrica

Rede pessoal de inferência de IA com Macs ociosos

Darkbloom é uma rede de inferência de IA distribuída desenvolvida pela Eigen Labs, que conecta Macs Apple Silicon ociosos para executar cargas de IA
Hoje, a computação de IA passa por uma estrutura de margem em 3 etapas — fabricante de GPU → hyperscaler → provedor de API → usuário final — e a Darkbloom elimina isso para viabilizar redução de custos de até 70%
Os operadores da rede não podem ver os dados dos usuários, e todas as solicitações são tratadas com criptografia de ponta a ponta
A API é compatível com OpenAI e oferece suporte a chat, geração de imagens e reconhecimento de voz da mesma forma que os SDKs existentes
Os operadores ficam com 95% a 100% da receita, com quase nenhum custo adicional além da eletricidade

Recursos para usuários

Como o custo marginal do hardware ocioso é praticamente zero, a economia é refletida diretamente no preço para o usuário
Por meio de uma API compatível com OpenAI, oferece chat, geração de imagens e conversão de fala em texto
Todas as solicitações são transmitidas com criptografia de ponta a ponta

Recursos para proprietários de hardware

Usuários com Macs Apple Silicon podem executar inferência de IA durante períodos de ociosidade e obter ganhos em USD
Os operadores mantêm 100% da receita de inferência, e o custo de energia fica em torno de $0.01~$0.03 por hora
O restante se converte em lucro líquido

Problemas estruturais do mercado de computação de IA

Hoje, o mercado de computação de IA segue uma estrutura de margem tripla: fabricante de GPU → provedor de nuvem → empresa de IA → usuário final
Por isso, o usuário final paga mais de 3 vezes o custo real do silício
Em contrapartida, mais de 100 milhões de dispositivos Apple Silicon permanecem ociosos por mais de 18 horas por dia, em média
Ao conectar esses recursos computacionais ociosos, torna-se possível usar ativos distribuídos de forma semelhante a Airbnb ou Uber
A Darkbloom transforma esses Macs ociosos em nós de inferência de IA, substituindo infraestrutura centralizada

O problema da confiança e os desafios para resolvê-lo

O ponto central de uma rede de computação distribuída é a confiabilidade
Como os usuários precisam processar seus dados em dispositivos de terceiros desconhecidos, uma segurança baseada apenas em termos de uso não é suficiente
Sem Privacidade Verificável (Verifiable Privacy), a inferência distribuída não é viável

A abordagem técnica da Darkbloom

Remoção dos caminhos de acesso
- Remove todos os caminhos de software pelos quais o operador poderia acessar os dados
- É composta por quatro camadas independentes, cada uma passível de verificação
Camada de criptografia
- As solicitações são criptografadas no dispositivo do usuário antes da transmissão
- O Coordinator roteia apenas o texto cifrado, e somente a chave de hardware do nó de destino pode descriptografá-lo
Camada de hardware
- Cada nó possui chaves geradas dentro do hardware de segurança da Apple
- A verificação é feita por meio de uma cadeia de atestação (attestation chain) derivada da Apple Root CA
Camada de runtime
- O processo de inferência é bloqueado no nível do sistema operacional
- Conexão de depurador e inspeção de memória são bloqueadas
- O operador não pode extrair dados do processo em execução
Camada de saída
- Todas as respostas podem ser verificadas com a assinatura daquele hardware
- Toda a cadeia de atestação é pública e pode ser verificada independentemente por qualquer pessoa
Como resultado, o operador executa a inferência, mas não pode ver os dados
- O prompt é criptografado antes da transmissão
- O Coordinator faz o roteamento sem conseguir ler o conteúdo
- O Provider descriptografa e executa em um ambiente isolado verificado
- A cadeia de atestação é pública, garantindo transparência

Detalhes de implementação

API compatível com OpenAI
- Totalmente compatível com os SDKs existentes da OpenAI
- Basta mudar a Base URL para usar o mesmo código
- Suporte a Streaming, Function Calling, Image Generation e Speech-to-Text
- Recursos compatíveis
- Streaming: baseado em SSE, formato OpenAI
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: suporte a modelos de até 239B parâmetros

Comparação de custos

Como o custo marginal do hardware ocioso é quase zero, há redução de preço
Sem assinatura nem exigência de uso mínimo
Cerca de 50% mais barato que o OpenRouter

Modelo	Entrada	Saída	OpenRouter	Redução
Gemma 4 26B4B	$0.03	$0.20	$0.40	50%
Qwen3.5 27B	$0.10	$0.78	$1.56	50%
Qwen3.5 122B MoE	$0.13	$1.04	$2.08	50%
MiniMax M2.5 239B	$0.06	$0.50	$1.00	50%

Geração de imagens: $0.0015/imagem (50% em relação ao Together.ai)
Reconhecimento de voz: $0.001/minuto (50% em relação ao AssemblyAI)
Taxa da plataforma 0%, com o operador mantendo 100% da receita

Economia para operadores

Ao fornecer um dispositivo Apple Silicon, é possível obter ganhos em USD
Sem custo adicional além da eletricidade, mantendo 100% da receita
Suporte a instalação por CLI, com app de menu bar para macOS em desenvolvimento
Forma de instalação
- Baixa o binário do provider por comando de terminal e registra um serviço launchd
- Sem dependências, atualizações automáticas, execução em segundo plano
  - macOS 14 ou superior, somente Apple Silicon
Receita estimada
- É possível estimar a receita com base em 18 horas de operação por dia
- A receita real varia conforme a demanda da rede e a popularidade dos modelos

Pesquisa e catálogo de modelos

O artigo de pesquisa explica em detalhes a arquitetura, o modelo de ameaças, a análise de segurança e o modelo econômico
Trata de uma arquitetura de inferência privada baseada em verificação de hardware
Link para download do PDF
Modelos disponíveis
- Gemma 4 26B: mais recente MoE multimodal do Google, com 4B de parâmetros ativos
- Qwen3.5 27B: modelo de raciocínio de alta qualidade (distillation de Claude Opus)
- Qwen3.5 122B MoE: 10B de parâmetros ativos, melhor qualidade por token
- MiniMax M2.5 239B: modelo SOTA para código, 100 tok/s no Mac Studio
- Cohere Transcribe: conformer 2B, conversão de fala em texto de altíssimo nível

2 comentários

shw00 9 일 전

Conceitualmente é interessante, mas fico em dúvida se isso vai realmente funcionar bem na prática. Como também apareceu nas opiniões do HN, um mercado de dois lados (two-sided market) precisa ter sucesso em atrair clientes iniciais dos dois lados, então isso é um grande problema.

GN⁺ 13 일 전

Comentários do Hacker News

Achei difícil acreditar nos cálculos de receita deles
Se um Mac mini se paga em 2 a 4 meses e depois rende de 1 a 2 mil dólares por mês, fica a dúvida de por que eles simplesmente não compram Mac minis e os colocam para rodar
- O cálculo em si se baseia em premissas otimistas. Ele presume que sempre haverá demanda para todas as máquinas
  No momento não é assim, mas eles esperam que um dia seja. Por isso, não recomendam comprar um dispositivo novo. Se você rodar em um aparelho que já tem, o custo é praticamente zero
  A conta de luz só ocorre quando chegam requisições, e nesse caso ela é compensada
  Se tiver curiosidade, pode mandar DM para @gajesh
- Se começarem a comprar Mac minis por conta própria, vão acabar construindo um pequeno datacenter por causa de energia, refrigeração e armazenamento
  As economias de escala começam a pesar e você passa a querer centros cada vez maiores, mas isso custa caro e os vizinhos também não gostam
  No fim, parece uma guerra assimétrica contra os hiperescaladores
- Nenhum provedor de GPU mantém 100% de utilização. A demanda oscila bastante
  Por exemplo, fica movimentado no horário do mercado acionário, mas fora disso é bem parado
  Se não houver provisionamento excessivo, os clientes vão embora; se houver demais, a receita cai
  De forma realista, parece algo em torno de 1/8 de utilização. Fazendo as contas no meu mini M4 Pro, dá cerca de US$ 24 por mês no modelo Gemma 4
- O ponto central é a falta de capital inicial. A maioria das pessoas já tem um computador parado, e basta convencê-las a instalar o software
  Comprar e manter hardware por conta própria sai bem mais caro. O investimento inicial é a maior barreira de entrada
- Há muitos Macs parados no mundo, então reunir uma base de usuários é fácil
  Dá para começar sem capital de VC e a diferenciação é clara
  Só que alguém pode implementar a mesma ideia cobrando uma taxa mais alta, então conquistar o mercado cedo é importante
Eu mesmo instalei, e o nível de acabamento não pareceu alto
Houve muitos erros, como falha no download do modelo de imagem e falha ao carregar modelos de áudio/TTS
Deixei o Gemma servido por 15 minutos, mas recebi 0 requisições reais de inferência; só entraram vários health checks
No momento, a demanda é insuficiente, então a projeção de receita não fecha
- Como foi lançado há apenas um dia, é natural que ainda não exista demanda. Vai levar um tempo
- Fico curioso se alguém do outro lado realmente fez um teste enviando um prompt e recebendo uma resposta
- Pela página de estatísticas, há muitos provedores, mas quase nenhuma demanda real
  Parece que agora estão focados em conseguir fornecedores, e conquistar clientes pagantes é urgente
- Eu esperava que, pelo menos no começo, eles gerassem algumas requisições por conta própria para dar motivação de hospedagem, mas esse recurso não existe
- Eu também vi o mesmo erro, e no log havia um alerta de “falha no health check do backend de STT”. Mesmo que exista demanda real, isso pode ser a causa
Para usar esse serviço, é preciso instalar MDM (software de gerenciamento de dispositivos)
Na prática, a partir desse momento aquele computador fica sob o controle deles
Eu jamais recomendaria isso em um computador usado para tarefas sensíveis, como banco
- No macOS, as permissões de MDM são limitadas por AccessRights, então não é possível algo no nível de trocar certificados SSL
  Mas a política de privacidade deles é fraca, então é difícil confiar
- MDM é uma condição totalmente inaceitável. Não vou transformar meu MacBook em um potencial tijolo
  Além disso, não faz sentido correr esse risco para ganhar alguns dólares por mês
Eles dizem usar TEE (Trusted Execution Environment) para verificar a integridade do modelo e do código
Já vi algo parecido na AWS, mas fico em dúvida se é possível proteger a memória ao usar GPU
O artigo relacionado pode ser visto aqui
- O artigo inteiro tem cheiro de LLM. O uso excessivo de fórmulas reduz a credibilidade
- Na prática, se você envia dados para um servidor externo, algum nível de retenção de dados é inevitável
  O mais seguro é usar isso apenas para fins não comerciais, como classificação ou geração de imagens, em vez de dados sensíveis
- Apple Silicon usa memória unificada para CPU e GPU
  O artigo afirma que a técnica de tabela de páginas do hipervisor protege a memória da GPU contra RDMA
- Macs não têm um TEE de hardware como SGX; só existe o Secure Enclave
Nos MacBooks de hoje, privacidade verificável é fisicamente impossível
Há o Secure Enclave, mas não é um enclave aberto como SGX/TDX/SEV
No fim, isso é apenas segurança no nível de endurecimento do SO, não um verdadeiro ambiente de execução confidencial
- Eu mesmo já criei um SDK de SGX. É possível implementar um nível de segurança até certo ponto parecido na plataforma da Apple
  O macOS tem uma estrutura bastante confiável se for possível atestar remotamente a sequência de boot e a configuração de TCC
  Não chega a ser SGX perfeito, mas em termos de usabilidade é melhor
- Tenho a sensação de que nós distribuídos aleatórios são até mais confiáveis do que provedores centralizados (OpenAI etc.)
- Com incentivos suficientes, qualquer chave de hardware acaba sendo quebrada. A alegação deles parece excessivamente confiante
Fazendo uma conta simples, meu M5 Pro gera 130 tokens por segundo (4 streams) com Gemma 4 26B
O preço da Darkbloom é US$ 0,20 por Mtok, então, rodando 24 horas por dia, a receita seria de cerca de US$ 67 por mês
Tirando a energia, dá um custo de cerca de US$ 9 por mês, então é algo como US$ 700 por ano de dinheiro extra
- Na prática, consome bem mais do que 50W. A eletricidade é cara e o desgaste do hardware acelera
  Pessoalmente, acho a ideia mais interessante do que a rentabilidade
- O cálculo deles usa 414 tok/s para Gemma 4 26B
  Na conta de energia, eles usam o truque de subtrair 12W de consumo em idle, mas a maioria das pessoas não deixa o computador ligado 24 horas por dia
- O número de 130 tok/s parece alto. Fico curioso sobre qual critério de quantização (quantization) foi usado
- Não consideram falha de hardware. Eu já minerei com GPU antes e perdi dinheiro porque uma ventoinha queimou em um mês
- Até a OpenAI só tem 5% de clientes pagantes, então fico em dúvida se esse modelo é sustentável
  Já houve tentativas de armazenamento distribuído como a Cubbit, mas fracassaram
O que eu queria dizer para @eigengajesh é que o Mac Mini M4 Pro também tem opção de 64GB
E há vários bugs — falha ao carregar metallib, 404 no download de modelos, inconsistência na documentação sobre divisão de receita (100% vs 95%) etc.
No geral, há muito texto com cara de escrito por LLM, e talvez fosse melhor lapidar mais antes de publicar
Esse projeto me lembra o DataseamGrid, que era distribuído nos computadores da escola antigamente
Era uma rede de computação distribuída de conceito semelhante
É um conceito interessante. Um mercado bilateral (two-sided marketplace) é difícil de iniciar, mas a curiosidade pode servir de motor
Se incentivarem as pessoas não só a fornecer, mas também a usar o serviço elas mesmas, talvez consigam equilibrar oferta e demanda
Seria bom ter uma versão self-hosted para empresas. Muitas companhias têm estoque de Macs, então isso poderia virar uma rede interna de inferência
Privacidade baseada em hardware é interessante, mas economicamente o grande risco é o custo de carregamento
Por exemplo, no modelo MiniMax M2.5 239B, mesmo com apenas 11B dos 239B ativados, ainda é preciso carregar 120GB
Carregar isso de um SSD leva dezenas de segundos
Se a requisição for roteada para outro Mac, haverá latência de carregamento a frio toda vez
Manter o modelo sempre na memória aumenta a conta de energia; não fazer isso aumenta a latência
Especialmente em Macs de 16GB a 32GB, nem sequer dá para hospedar modelos grandes, então o número de fornecedores viáveis na prática é extremamente limitado

Darkbloom – rede pessoal de inferência de IA com Macs ociosos

Rede pessoal de inferência de IA com Macs ociosos

Recursos para usuários

Recursos para proprietários de hardware

Problemas estruturais do mercado de computação de IA

O problema da confiança e os desafios para resolvê-lo

A abordagem técnica da Darkbloom

Remoção dos caminhos de acesso

Camada de criptografia

Camada de hardware

Camada de runtime

Camada de saída

Como resultado, o operador executa a inferência, mas não pode ver os dados

Detalhes de implementação

API compatível com OpenAI

Comparação de custos

Economia para operadores

Forma de instalação

Sem dependências, atualizações automáticas, execução em segundo plano

Receita estimada

Pesquisa e catálogo de modelos

Modelos disponíveis

Leituras relacionadas

2 comentários

Comentários do Hacker News