2 pontos por GN⁺ 2025-08-31 | 2 comentários | Compartilhar no WhatsApp
  • Este site mede o quanto os dados dos usuários estão concentrados no Fediverse (Mastodon, Pixelfed etc.) e na Atmosphere (Bluesky, WhiteWind etc.)
  • Usa o Herfindahl–Hirschman Index (HHI) e o Shannon Index para analisar o grau de distribuição de usuários entre servidores
  • O HHI é um indicador usado em economia para medir competitividade; quanto menor o valor, maior a dispersão, e quanto maior, mais concentração monopolista ele indica
  • O Shannon Index é um indicador de diversidade baseado em entropia; quanto maior o valor, mais uniformemente a população está distribuída entre os servidores
  • Além da concentração de dados, este projeto considera vários fatores para medir a descentralização, como estrutura de rede, jurisdição legal e concentração de poder social, e disponibiliza dados e código no GitHub

Introdução e principais conceitos

  • Mede o quanto os dados dos usuários estão concentrados nas plataformas Fediverse e Atmosphere usando o Herfindahl–Hirschman Index (HHI)
  • O HHI é um indicador clássico da economia para avaliar o grau de competição, calculado somando o quadrado da participação de usuários de cada servidor (ou PDS)
  • Quanto mais próximo de 0 for o HHI, mais uniformemente os usuários estão distribuídos entre vários servidores; quanto mais próximo de 10.000, mais ele sugere um estado de monopólio em que a maioria dos usuários está concentrada em um único servidor
  • Em geral, HHI abaixo de 100 é considerado "muito competitivo", abaixo de 1.500 "não concentrado" e acima de 2.500 "altamente concentrado"

Método de medição e definição dos dados

  • O objeto de medição são os servidores (instâncias) do Fediverse e os PDS (servidores pessoais de dados) da Atmosphere
  • Em plataformas como Mastodon, onde os usuários estão distribuídos entre várias instâncias, as instâncias pertencentes à mesma operadora são somadas como uma só
    • Ex.: mastodon.social e mastodon.online são operados pela mesma empresa, então entram juntos na estatística
    • Todos os PDS gerenciados pela Bluesky Social PBC também são contabilizados como um só
  • Assim, o tamanho da base de usuários controlada por uma mesma entidade é refletido com precisão

Diferentes perspectivas para medir centralização

  • Além da distribuição física dos dados dos usuários, é possível analisar a descentralização sob vários outros aspectos
    • Aspectos estruturais da rede (ex.: P2P, relays etc.)
    • Métodos de gerenciamento de identidade
    • Propriedade e localização da infraestrutura real (região, jurisdição etc.)
    • Concentração de poder social e organizacional (como a concentração de influência dentro da plataforma)
  • Não basta olhar apenas para a distribuição de dados dentro da plataforma; também é importante considerar se há distribuição de autoridade e influência

Participação no projeto e open source

  • Todo o código e conjunto de dados usados na medição estão publicados no repositório no GitHub
  • Contribuições, comentários, sugestões de novas métricas e a adição de métricas de resiliency são bem-vindos

2 comentários

 
codject 2025-08-31

Dizer "Já estamos descentralizados?" também não está exatamente errado, mas soa pouco natural e meio estranho.
Como "já" costuma ser usado principalmente com frases afirmativas...

Acho que uma tradução como "A descentralização ainda não chegou?" seria um título mais natural.

 
GN⁺ 2025-08-31
Opinião do Hacker News
  • Hoje descobri pela primeira vez o Herfindahl–Hirschman Index, então quis testá-lo com um caso estranho e memorável
    No fim dos anos 1980, houve um período em que a Microsoft registrou mais de 100% de participação no mercado de planilhas para Macintosh
    Isso foi possível porque a participação de mercado é calculada dividindo as vendas de cada participante em um determinado período pelas vendas totais do mercado no mesmo período, e a planilha Lotus Jazz, da Lotus, fracassou tanto que o volume de devoluções superou o de vendas
    Como resultado, a Lotus ficou com participação negativa, e as vendas do Microsoft Excel acabaram ficando maiores que as vendas totais do mercado, resultando em uma participação acima de 100%
    Não lembro os números exatos, mas era algo como Microsoft 102% e Lotus -2%
    Nesse caso, o Herfindahl–Hirschman Index fica 1022 + (-2)2 = 10404 + 4 = 10408
    Em casos extremos assim, o HHI pode passar de 10.000
    (Adicionei a condição de “em um determinado período” para fins de explicação)

    • Procurei com bastante empenho por artigos sobre isso online, mas não encontrei nada (talvez esteja em algum microfilme...)
      Em vez disso, achei uma anedota divertida
      Um executivo da Lotus teria brincado: “No primeiro mês, enviamos 62.000 unidades, e no mês seguinte 64.000 foram devolvidas. Até cópias piratas foram devolvidas”
      Artigo relacionado da Forbes

    • O HHI é uma métrica realmente útil
      A ideia da soma dos quadrados das participações normalizadas se aplica bem não só à participação de mercado, mas a várias situações
      Há também ótimos exemplos de uso em votações

  • Não me surpreende que o resultado seja interessante
    Para o usuário comum, o BlueSky é um serviço que praticamente pode substituir o Twitter
    O Mastadon tem menos usuários no total, mas é bom ver que o ecossistema do Mastadon evita a centralização como o ecossistema do AT-Proto
    Pessoalmente, imagino que o custo de operar um servidor/relay AT proto seja bem pesado para operadores pequenos, mas isso é só uma suposição minha sem conhecer a fundo a estrutura interna dos dois ecossistemas

    • Operar um servidor PDS para si mesmo e alguns amigos não custa tanto
      Mas também não há uma grande vantagem em operar assim; o objetivo do PDS é separar de forma limpa os próprios dados dos dados da rede como um todo
      O que realmente custa caro no ATProto é o Relay (que coleta/transmite todos os dados) e o AppView (que armazena em banco de dados todos os posts/curtidas etc. e responde às requisições dos usuários)
      Claro, numa rede pequena, por exemplo para textos longos como o WhiteWind, isso é viável porque o volume de eventos é baixo
      No geral, a arquitetura foi pensada para que a maioria das pessoas não precise fazer self-hosting
      Dá para criar seu próprio feed algorítmico ou frontend usando os dados do Relay ou do AppView operados pelo Bluesky

    • Acho que uma das razões do sucesso do BlueSky é que, ao contrário do Mastodon, ele não vende “descentralização” para o usuário
      A maioria das pessoas nem sabe o que é descentralização e nem quer saber
      Acho que vale mais investir esforço em boa operação e ferramentas de gestão do que em descentralização

    • O ATProto é apoiado por empresas e investidores de perfis diversos
      Em algum momento eles também vão querer retorno, e é difícil prever de que forma isso vai acontecer

    • Sobre a discussão de custos operacionais, o ATProto tem uma estrutura muito diferente
      O Mastodon funciona como vários servidores individuais parecidos com Twitter trocando informações entre si, como e-mail, então um servidor pequeno para conhecidos sai barato
      Mas essa estrutura se conecta pior com a rede global, e o meu servidor vira a minha identidade
      Quando você segue usuários de outros servidores, o seu servidor pede informações ao servidor deles, mas, no fundo, a visão da rede inteira fica fragmentada
      O ATProto foi dividido de forma diferente desde o início para poder competir com serviços centralizados, separando a origem dos dados da agregação da aplicação
      É meio como se cada usuário publicasse JSON em seu próprio site (url), e os apps agregassem esses dados
      Como resultado, todos acabam tendo a mesma visão (com todos os comentários, curtidas e respostas refletidos)
      Enquanto no Mastodon uma “instância” é um webapp de Twitter independente, no ATProto existem vários primitivos distribuídos

      • PDS é um armazenamento de dados independente do app; o custo de operar por conta própria é extremamente baixo (algo abaixo de US$ 1 por usuário/mês), há implementações open source, e é parecido com hospedagem de Git
      • AppView faz o papel do backend real da aplicação; operar um Bluesky AppView que ingere os dados da rede inteira custa cerca de US$ 300 por mês
        Um AppView que vê só parte da rede, no estilo Mastodon, é bem mais barato, mas tem pouco apelo e quase ninguém usa
      • Relay serve para otimizar o broadcast de dados entre vários PDS e AppView; depois do Sync 1.1, o preço caiu bastante e ficou em torno de US$ 30 por mês
        Resumindo: operar PDS e Relay é barato, e o caro é operar um AppView completo, porque o Mastodon nem tem um conceito equivalente
        Comparar diretamente o preço da experiência fragmentada do Mastodon com a experiência consistente do ATProto não faz muito sentido
        Rodar um AppView parcial, como no Mastodon, é barato, mas tem pouco atrativo na prática
        Além disso, o Mastodon tenta aliviar parte disso com on-demand fetching, mas sistemas distribuídos baseados em pull têm limitações
        Pergunta relacionada
  • No fim, mesmo em sistemas distribuídos aparece naturalmente um fenômeno de centralização
    O Git também foi uma tentativa de distribuição, mas na prática acabou concentrado em plataformas específicas como GitHub e GitLab
    O BitTorrent também é distribuído, mas sites de tracker acabam funcionando como centros naturais
    O Bitcoin também acaba tendo alguns serviços centrais, como a Coinbase
    E até o e-mail (SMTP), por causa do problema de spam, na prática mostra um fenômeno de centralização

    • No caso do e-mail (SMTP), não é verdade que “só empresas grandes conseguem filtrar spam”
      Já existem listas distribuídas de filtragem de spam há muito tempo, e grandes empresas também não têm uma vantagem especial nisso
      O que acontece é que empresas grandes tendem a tratar servidores pequenos como spam, e pode até haver a intenção de sufocar concorrentes
      Mas também não é verdade que configurar corretamente reverse DNS e DKIM faça tudo ser tratado como legítimo; até serviços grandes podem marcar uns aos outros como spam, então nada disso é absoluto

    • Existem vários sites de tracker, e quando um some outro aparece rapidamente
      Portanto, não há um único player controlando o ecossistema, e ainda dá para considerar isso descentralizado

    • Serviços como a Coinbase podem ser criados por qualquer um
      Na prática, existem vários sites semelhantes, e hoje até o PayPal pode ser usado
      Também não há necessidade de depender de um único serviço; por exemplo, você pode comprar bitcoin no PayPal e vender na Coinbase
      Acho estranho definir essa situação como centralização

    • O próprio Git não é uma ferramenta cujo objetivo fosse descentralização, então isso também pesa

    • Todos os exemplos citados acabam tendo algum elemento de centralização

  • No fedi (ecossistema social distribuído), há mais descentralização, mas falta consistência
    Esse é o ponto de que os usuários que entram no fedi mais reclamam
    Pessoalmente, acho isso um grande avanço e me parece aceitável, mas o mais importante é ter expectativas realistas

    • Fico curioso sobre o que exatamente significa consistência nesse contexto (nunca usei o Fediverse, então me falta referência)
  • Fico curioso sobre como sistemas federados antigos, como IRC e NNTP, poderiam ser medidos com algo como HHI
    Dá curiosidade imaginar que resultados esses sistemas antigos teriam nessa métrica

    • Houve um caso em que, quando o freenode trocou de dono, quase todo mundo migrou em menos de uma semana
      É interessante como essa mobilidade era realmente fácil e viável

    • Em ambientes pequenos e semi-privados, o IRC ainda é excelente, especialmente com scroll-back via frontend web
      Mas, quando cresce demais, começa a desmoronar por causa de política e diferenças culturais
      Quando reúne pessoas com afinidades, funciona muito bem, mas, ao abrir totalmente ao público, aparecem divergências, trolls e bots de IA
      Dá para manter a interface web semi-privada e usar autenticação simples, bloqueio de referer etc. para evitar ameaças de segurança, tumulto e bots de terceiros
      O NNTP também é bom, mas não é fácil espelhar individualmente todos os grupos binários, e como os ISPs já não oferecem mais suporte, a maioria usa feeds comerciais de news ou provedores gratuitos de Usenet
      É bom fazer peering com alguns provedores gratuitos para reduzir o risco de censura
      Tanto IRC quanto NNTP permitem que indivíduos criem seus próprios servidores privados ou semi-privados interligados
      Informação relacionada

    • Matematicamente, calcular isso é fácil, e as estatísticas de rede podem ser vistas em netsplit.de

  • Seria interessante adicionar o Nostr a essa distribuição de HHI
    No Nostr, a concentração da base de usuários é apontada como uma das principais fraquezas do modelo fedi, mas como a identidade do usuário não fica em um único relay, a aplicação desse cálculo acabaria saindo um pouco estranha

    • Isso porque a maioria dos clientes Nostr envia dados para vários relays, e a própria conta é o par de chaves públicas do dispositivo do usuário
  • Acho que essa questão de centralização/descentralização talvez seja sempre um problema de marketing e UX

  • Seria interessante ver que mudanças aconteceriam se o Threads fosse incluído no Fediverse

    • O Threads também oferece controles de privacidade mais fortes em formato opt-in por conta própria, mas no fim ainda pode ser visto como um dos “servidores que possuem os dados dos usuários” dentro do Fediverse
  • O importante é manter um bom equilíbrio
    Se descentralizar demais, ninguém encontra nada; se centralizar demais, a censura elimina a liberdade

    • Pessoalmente, fico na dúvida se discoverability em um ambiente distribuído é realmente algo impossível
      Se forem investidos recursos suficientes em indexação (dinheiro, equipe etc.), o ponto de equilíbrio talvez possa até ser mantido de forma instável, como deixar um pêndulo em pé ao contrário
      Na era de ouro dos blogs, já houve um equilíbrio entre mecanismos de busca (centrais) e blogs/fóruns (individuais), mas isso foi enfraquecendo com o tempo por causa de spam e da integração em grandes plataformas

    • Quero apontar que essa visão parte da suposição de que a função de “descoberta” necessariamente exige algum elemento centralizador

    • Em termos econômicos, um HHI abaixo de 100 é considerado “muito competitivo”, abaixo de 1500 é “não concentrado”, e acima de 2500 é “altamente concentrado”
      O Fediverse está quase na extrema esquerda e ainda assim já está em 690
      A centralização completa (uma subida reta para o topo) seria 5000
      Na prática, isso está mostrando uma escala não linear de forma linear

    • Quero opções de escolha artificiais
      Gostaria que o usuário pudesse escolher diretamente entre centralização, descentralização, híbrido etc.

    • Se a crítica for que “está descentralizado demais”, uma organização sem fins lucrativos poderia criar um índice em que hosts públicos se registrassem voluntariamente para tornar todo o conteúdo distribuído encontrável
      Desse jeito, o problema de busca também poderia ser resolvido
      No fim, talvez o Facebook tente puxar esse tipo de dado para dentro do Threads

  • A métrica HHI em si é nova para mim e fácil de entender
    Se fosse reduzida para a escala 0–100 (dividindo por 100), talvez os números ficassem mais intuitivos
    Também valeria considerar inverter a escala, de forma que 0 fosse centralização e 100 descentralização total
    Como o título da página inicial dá a sensação de medir o “progresso” rumo à descentralização, isso pareceria mais intuitivo

    • Porém, talvez a razão para não normalizar em 0–100 seja justamente evitar que as pessoas interpretem esse número de forma linear
      Ao ver uma pontuação de 2500, a pessoa tende a se perguntar o que isso significa, mas se aparecer como 25/100, a sensação de “alta concentração” fica menor demais