1 pontos por GN⁺ 13 일 전 | 2 comentários | Compartilhar no WhatsApp
  • Darkbloom é uma rede que conecta Macs Apple Silicon ociosos para realizar inferência de IA distribuída, processando cargas de IA em dispositivos pessoais sem depender de nuvem centralizada
  • Elimina a estrutura de margem tripla entre fabricantes de GPU, provedores de nuvem e APIs, alcançando redução de custos de até 70%
  • Todas as solicitações são criptografadas de ponta a ponta, de modo que os operadores não podem ver os dados dos usuários, com confiança garantida por uma cadeia de atestação baseada no hardware de segurança da Apple
  • Fornece uma API compatível com OpenAI, oferecendo os mesmos recursos dos SDKs existentes para chat, geração de imagens e reconhecimento de voz
  • Os operadores ficam com 95% a 100% da receita e podem obter ganhos em USD com Macs ociosos, sem custos adicionais além da energia elétrica

Rede pessoal de inferência de IA com Macs ociosos

  • Darkbloom é uma rede de inferência de IA distribuída desenvolvida pela Eigen Labs, que conecta Macs Apple Silicon ociosos para executar cargas de IA
  • Hoje, a computação de IA passa por uma estrutura de margem em 3 etapas — fabricante de GPU → hyperscaler → provedor de API → usuário final — e a Darkbloom elimina isso para viabilizar redução de custos de até 70%
  • Os operadores da rede não podem ver os dados dos usuários, e todas as solicitações são tratadas com criptografia de ponta a ponta
  • A API é compatível com OpenAI e oferece suporte a chat, geração de imagens e reconhecimento de voz da mesma forma que os SDKs existentes
  • Os operadores ficam com 95% a 100% da receita, com quase nenhum custo adicional além da eletricidade

Recursos para usuários

  • Como o custo marginal do hardware ocioso é praticamente zero, a economia é refletida diretamente no preço para o usuário
  • Por meio de uma API compatível com OpenAI, oferece chat, geração de imagens e conversão de fala em texto
  • Todas as solicitações são transmitidas com criptografia de ponta a ponta

Recursos para proprietários de hardware

  • Usuários com Macs Apple Silicon podem executar inferência de IA durante períodos de ociosidade e obter ganhos em USD
  • Os operadores mantêm 100% da receita de inferência, e o custo de energia fica em torno de $0.01~$0.03 por hora
  • O restante se converte em lucro líquido

Problemas estruturais do mercado de computação de IA

  • Hoje, o mercado de computação de IA segue uma estrutura de margem tripla: fabricante de GPU → provedor de nuvem → empresa de IA → usuário final
  • Por isso, o usuário final paga mais de 3 vezes o custo real do silício
  • Em contrapartida, mais de 100 milhões de dispositivos Apple Silicon permanecem ociosos por mais de 18 horas por dia, em média
  • Ao conectar esses recursos computacionais ociosos, torna-se possível usar ativos distribuídos de forma semelhante a Airbnb ou Uber
  • A Darkbloom transforma esses Macs ociosos em nós de inferência de IA, substituindo infraestrutura centralizada

O problema da confiança e os desafios para resolvê-lo

  • O ponto central de uma rede de computação distribuída é a confiabilidade
  • Como os usuários precisam processar seus dados em dispositivos de terceiros desconhecidos, uma segurança baseada apenas em termos de uso não é suficiente
  • Sem Privacidade Verificável (Verifiable Privacy), a inferência distribuída não é viável

A abordagem técnica da Darkbloom

  • Remoção dos caminhos de acesso

    • Remove todos os caminhos de software pelos quais o operador poderia acessar os dados
    • É composta por quatro camadas independentes, cada uma passível de verificação
  • Camada de criptografia

    • As solicitações são criptografadas no dispositivo do usuário antes da transmissão
    • O Coordinator roteia apenas o texto cifrado, e somente a chave de hardware do nó de destino pode descriptografá-lo
  • Camada de hardware

    • Cada nó possui chaves geradas dentro do hardware de segurança da Apple
    • A verificação é feita por meio de uma cadeia de atestação (attestation chain) derivada da Apple Root CA
  • Camada de runtime

    • O processo de inferência é bloqueado no nível do sistema operacional
    • Conexão de depurador e inspeção de memória são bloqueadas
    • O operador não pode extrair dados do processo em execução
  • Camada de saída

    • Todas as respostas podem ser verificadas com a assinatura daquele hardware
    • Toda a cadeia de atestação é pública e pode ser verificada independentemente por qualquer pessoa
  • Como resultado, o operador executa a inferência, mas não pode ver os dados

    • O prompt é criptografado antes da transmissão
    • O Coordinator faz o roteamento sem conseguir ler o conteúdo
    • O Provider descriptografa e executa em um ambiente isolado verificado
    • A cadeia de atestação é pública, garantindo transparência

Detalhes de implementação

  • API compatível com OpenAI

    • Totalmente compatível com os SDKs existentes da OpenAI
    • Basta mudar a Base URL para usar o mesmo código
    • Suporte a Streaming, Function Calling, Image Generation e Speech-to-Text
    • Recursos compatíveis
    • Streaming: baseado em SSE, formato OpenAI
    • Image Generation: FLUX.2 on Metal
    • Speech-to-Text: Cohere Transcribe
    • Large MoE: suporte a modelos de até 239B parâmetros

Comparação de custos

  • Como o custo marginal do hardware ocioso é quase zero, há redução de preço
  • Sem assinatura nem exigência de uso mínimo
  • Cerca de 50% mais barato que o OpenRouter
Modelo Entrada Saída OpenRouter Redução
Gemma 4 26B4B $0.03 $0.20 $0.40 50%
Qwen3.5 27B $0.10 $0.78 $1.56 50%
Qwen3.5 122B MoE $0.13 $1.04 $2.08 50%
MiniMax M2.5 239B $0.06 $0.50 $1.00 50%
  • Geração de imagens: $0.0015/imagem (50% em relação ao Together.ai)
  • Reconhecimento de voz: $0.001/minuto (50% em relação ao AssemblyAI)
  • Taxa da plataforma 0%, com o operador mantendo 100% da receita

Economia para operadores

  • Ao fornecer um dispositivo Apple Silicon, é possível obter ganhos em USD
  • Sem custo adicional além da eletricidade, mantendo 100% da receita
  • Suporte a instalação por CLI, com app de menu bar para macOS em desenvolvimento
  • Forma de instalação

    • Baixa o binário do provider por comando de terminal e registra um serviço launchd
    • Sem dependências, atualizações automáticas, execução em segundo plano

      • macOS 14 ou superior, somente Apple Silicon
  • Receita estimada

    • É possível estimar a receita com base em 18 horas de operação por dia
    • A receita real varia conforme a demanda da rede e a popularidade dos modelos

Pesquisa e catálogo de modelos

  • O artigo de pesquisa explica em detalhes a arquitetura, o modelo de ameaças, a análise de segurança e o modelo econômico
  • Trata de uma arquitetura de inferência privada baseada em verificação de hardware
  • Link para download do PDF
  • Modelos disponíveis

    • Gemma 4 26B: mais recente MoE multimodal do Google, com 4B de parâmetros ativos
    • Qwen3.5 27B: modelo de raciocínio de alta qualidade (distillation de Claude Opus)
    • Qwen3.5 122B MoE: 10B de parâmetros ativos, melhor qualidade por token
    • MiniMax M2.5 239B: modelo SOTA para código, 100 tok/s no Mac Studio
    • Cohere Transcribe: conformer 2B, conversão de fala em texto de altíssimo nível

2 comentários

 
shw00 9 일 전

Conceitualmente é interessante, mas fico em dúvida se isso vai realmente funcionar bem na prática. Como também apareceu nas opiniões do HN, um mercado de dois lados (two-sided market) precisa ter sucesso em atrair clientes iniciais dos dois lados, então isso é um grande problema.

 
GN⁺ 13 일 전
Comentários do Hacker News
  • Achei difícil acreditar nos cálculos de receita deles
    Se um Mac mini se paga em 2 a 4 meses e depois rende de 1 a 2 mil dólares por mês, fica a dúvida de por que eles simplesmente não compram Mac minis e os colocam para rodar

    • O cálculo em si se baseia em premissas otimistas. Ele presume que sempre haverá demanda para todas as máquinas
      No momento não é assim, mas eles esperam que um dia seja. Por isso, não recomendam comprar um dispositivo novo. Se você rodar em um aparelho que já tem, o custo é praticamente zero
      A conta de luz só ocorre quando chegam requisições, e nesse caso ela é compensada
      Se tiver curiosidade, pode mandar DM para @gajesh
    • Se começarem a comprar Mac minis por conta própria, vão acabar construindo um pequeno datacenter por causa de energia, refrigeração e armazenamento
      As economias de escala começam a pesar e você passa a querer centros cada vez maiores, mas isso custa caro e os vizinhos também não gostam
      No fim, parece uma guerra assimétrica contra os hiperescaladores
    • Nenhum provedor de GPU mantém 100% de utilização. A demanda oscila bastante
      Por exemplo, fica movimentado no horário do mercado acionário, mas fora disso é bem parado
      Se não houver provisionamento excessivo, os clientes vão embora; se houver demais, a receita cai
      De forma realista, parece algo em torno de 1/8 de utilização. Fazendo as contas no meu mini M4 Pro, dá cerca de US$ 24 por mês no modelo Gemma 4
    • O ponto central é a falta de capital inicial. A maioria das pessoas já tem um computador parado, e basta convencê-las a instalar o software
      Comprar e manter hardware por conta própria sai bem mais caro. O investimento inicial é a maior barreira de entrada
    • Há muitos Macs parados no mundo, então reunir uma base de usuários é fácil
      Dá para começar sem capital de VC e a diferenciação é clara
      Só que alguém pode implementar a mesma ideia cobrando uma taxa mais alta, então conquistar o mercado cedo é importante
  • Eu mesmo instalei, e o nível de acabamento não pareceu alto
    Houve muitos erros, como falha no download do modelo de imagem e falha ao carregar modelos de áudio/TTS
    Deixei o Gemma servido por 15 minutos, mas recebi 0 requisições reais de inferência; só entraram vários health checks
    No momento, a demanda é insuficiente, então a projeção de receita não fecha

    • Como foi lançado há apenas um dia, é natural que ainda não exista demanda. Vai levar um tempo
    • Fico curioso se alguém do outro lado realmente fez um teste enviando um prompt e recebendo uma resposta
    • Pela página de estatísticas, há muitos provedores, mas quase nenhuma demanda real
      Parece que agora estão focados em conseguir fornecedores, e conquistar clientes pagantes é urgente
    • Eu esperava que, pelo menos no começo, eles gerassem algumas requisições por conta própria para dar motivação de hospedagem, mas esse recurso não existe
    • Eu também vi o mesmo erro, e no log havia um alerta de “falha no health check do backend de STT”. Mesmo que exista demanda real, isso pode ser a causa
  • Para usar esse serviço, é preciso instalar MDM (software de gerenciamento de dispositivos)
    Na prática, a partir desse momento aquele computador fica sob o controle deles
    Eu jamais recomendaria isso em um computador usado para tarefas sensíveis, como banco

    • No macOS, as permissões de MDM são limitadas por AccessRights, então não é possível algo no nível de trocar certificados SSL
      Mas a política de privacidade deles é fraca, então é difícil confiar
    • MDM é uma condição totalmente inaceitável. Não vou transformar meu MacBook em um potencial tijolo
      Além disso, não faz sentido correr esse risco para ganhar alguns dólares por mês
  • Eles dizem usar TEE (Trusted Execution Environment) para verificar a integridade do modelo e do código
    Já vi algo parecido na AWS, mas fico em dúvida se é possível proteger a memória ao usar GPU
    O artigo relacionado pode ser visto aqui

    • O artigo inteiro tem cheiro de LLM. O uso excessivo de fórmulas reduz a credibilidade
    • Na prática, se você envia dados para um servidor externo, algum nível de retenção de dados é inevitável
      O mais seguro é usar isso apenas para fins não comerciais, como classificação ou geração de imagens, em vez de dados sensíveis
    • Apple Silicon usa memória unificada para CPU e GPU
      O artigo afirma que a técnica de tabela de páginas do hipervisor protege a memória da GPU contra RDMA
    • Macs não têm um TEE de hardware como SGX; só existe o Secure Enclave
  • Nos MacBooks de hoje, privacidade verificável é fisicamente impossível
    Há o Secure Enclave, mas não é um enclave aberto como SGX/TDX/SEV
    No fim, isso é apenas segurança no nível de endurecimento do SO, não um verdadeiro ambiente de execução confidencial

    • Eu mesmo já criei um SDK de SGX. É possível implementar um nível de segurança até certo ponto parecido na plataforma da Apple
      O macOS tem uma estrutura bastante confiável se for possível atestar remotamente a sequência de boot e a configuração de TCC
      Não chega a ser SGX perfeito, mas em termos de usabilidade é melhor
    • Tenho a sensação de que nós distribuídos aleatórios são até mais confiáveis do que provedores centralizados (OpenAI etc.)
    • Com incentivos suficientes, qualquer chave de hardware acaba sendo quebrada. A alegação deles parece excessivamente confiante
  • Fazendo uma conta simples, meu M5 Pro gera 130 tokens por segundo (4 streams) com Gemma 4 26B
    O preço da Darkbloom é US$ 0,20 por Mtok, então, rodando 24 horas por dia, a receita seria de cerca de US$ 67 por mês
    Tirando a energia, dá um custo de cerca de US$ 9 por mês, então é algo como US$ 700 por ano de dinheiro extra

    • Na prática, consome bem mais do que 50W. A eletricidade é cara e o desgaste do hardware acelera
      Pessoalmente, acho a ideia mais interessante do que a rentabilidade
    • O cálculo deles usa 414 tok/s para Gemma 4 26B
      Na conta de energia, eles usam o truque de subtrair 12W de consumo em idle, mas a maioria das pessoas não deixa o computador ligado 24 horas por dia
    • O número de 130 tok/s parece alto. Fico curioso sobre qual critério de quantização (quantization) foi usado
    • Não consideram falha de hardware. Eu já minerei com GPU antes e perdi dinheiro porque uma ventoinha queimou em um mês
    • Até a OpenAI só tem 5% de clientes pagantes, então fico em dúvida se esse modelo é sustentável
      Já houve tentativas de armazenamento distribuído como a Cubbit, mas fracassaram
  • O que eu queria dizer para @eigengajesh é que o Mac Mini M4 Pro também tem opção de 64GB
    E há vários bugs — falha ao carregar metallib, 404 no download de modelos, inconsistência na documentação sobre divisão de receita (100% vs 95%) etc.
    No geral, há muito texto com cara de escrito por LLM, e talvez fosse melhor lapidar mais antes de publicar

  • Esse projeto me lembra o DataseamGrid, que era distribuído nos computadores da escola antigamente
    Era uma rede de computação distribuída de conceito semelhante

  • É um conceito interessante. Um mercado bilateral (two-sided marketplace) é difícil de iniciar, mas a curiosidade pode servir de motor
    Se incentivarem as pessoas não só a fornecer, mas também a usar o serviço elas mesmas, talvez consigam equilibrar oferta e demanda
    Seria bom ter uma versão self-hosted para empresas. Muitas companhias têm estoque de Macs, então isso poderia virar uma rede interna de inferência

  • Privacidade baseada em hardware é interessante, mas economicamente o grande risco é o custo de carregamento
    Por exemplo, no modelo MiniMax M2.5 239B, mesmo com apenas 11B dos 239B ativados, ainda é preciso carregar 120GB
    Carregar isso de um SSD leva dezenas de segundos
    Se a requisição for roteada para outro Mac, haverá latência de carregamento a frio toda vez
    Manter o modelo sempre na memória aumenta a conta de energia; não fazer isso aumenta a latência
    Especialmente em Macs de 16GB a 32GB, nem sequer dá para hospedar modelos grandes, então o número de fornecedores viáveis na prática é extremamente limitado