A era do armazenamento de dados pessoais chegou

(blog.muni.town)

10 pontos por GN⁺ 2025-10-06 | 1 comentários | Compartilhar no WhatsApp

O conceito de armazenamento de dados centrado no usuário proposto pelo criador da web, Tim Berners-Lee, está se tornando realidade
Sua ideia inicial, o protocolo Solid, busca uma estrutura em que a pessoa seja dona direta dos próprios dados, e os aplicativos só possam acessá-los com sua permissão
Mais recentemente, o protocolo AT do Bluesky vem evoluindo na mesma direção, implementando uma web social descentralizada que armazena dados em servidores pessoais (PDS)
Esse armazenamento pessoal de dados está indo além da implementação técnica e se expandindo para estruturas de cooperativas de dados (Data Coop), de propriedade e operação dos próprios cidadãos
No fim, isso pode ser visto como um movimento para devolver a web ao espaço pessoal, uma tentativa de reconfigurar de forma fundamental a estrutura de internet dependente de plataformas

A visão de Tim Berners-Lee: Socially Aware Cloud Storage

Em 2009, Berners-Lee propôs o “Socially Aware Cloud Storage”, uma especificação da web desenhada para que os aplicativos operem sobre uma camada de armazenamento independente
- Os usuários são gerenciados por identificadores globais baseados em URI, e o controle de acesso é feito de forma padronizada
- Os repositórios de dados são separados dos aplicativos e definidos como recursos genéricos e substituíveis

O surgimento e a evolução do protocolo Solid

Em 2015, Tim Berners-Lee garantiu financiamento para o desenvolvimento do protocolo Solid e conduziu pesquisas no MIT
- O objetivo do Solid é construir uma arquitetura web que devolva a propriedade dos dados ao usuário e permita alternar livremente entre aplicativos
- O usuário gerencia seus dados em um só lugar, e os aplicativos precisam solicitá-los com a autorização da pessoa
O Solid evoluiu para uma especificação web oficial do W3C, mas ainda não chegou à adoção em massa
- A Inrupt, cofundada por Berners-Lee, está comercializando a tecnologia com foco no mercado corporativo

O protocolo AT e os servidores pessoais de dados (PDS)

O protocolo AT (Atproto), desenvolvido pela equipe do Bluesky, é hoje uma rede social aberta usada por mais de 30 milhões de pessoas
- Embora a estrutura técnica seja diferente da do Solid, a filosofia de armazenamento de dados com soberania do usuário é a mesma
- No protocolo AT, os dados pessoais ficam armazenados em um Personal Data Server (PDS), semelhante ao conceito de “Pod” do Solid
O usuário pode usar seu próprio domínio como handle de internet, mantendo uma identidade independente entre diferentes redes sociais
- Exemplo: uma estrutura em que um domínio pessoal é usado como handle, como @alice.com

A ascensão das cooperativas de dados (Data Co-op)

A maioria das pessoas comuns ainda prefere armazenamento institucional em nuvem a um PC pessoal
Está em discussão uma transição para uma estrutura de banco de dados de propriedade coletiva dos membros, semelhante ao modelo de cooperativas de crédito dos bancos tradicionais
- Trata-se da aplicação do modelo de credit union aos dados, com gestão transparente e centrada nos membros como ponto principal
Na prática, plataformas cooperativas de dados como social.coop, data.coop e cosocial.ca já operam ativamente no ecossistema do fediverso
- O novo projeto Northsky também está sendo preparado como uma instituição coletiva de dados baseada na rede AT
Essas organizações não precisam ser legalmente cooperativas; o termo inclui qualquer formato que realize gestão de dados democrática e transparente

Um novo paradigma de soberania de dados

Quando os dados são armazenados em instituições controladas por cidadãos, e não por empresas, o foco do debate sobre propriedade dos dados muda
- Em vez de “quais dados podemos baixar”, a pergunta passa a ser “quais dados a plataforma pode copiar dos nossos servidores”
O intercâmbio técnico entre Solid e AT também está crescendo, e as discussões sobre interoperabilidade com padrões como o ActivityPub estão ativas
O armazenamento pessoal de dados agora se expandiu para além de um protocolo específico, e os formatos de dados são convertíveis, enquanto os protocolos são intercambiáveis
O ponto central é garantir que a pessoa, ao controlar seus próprios dados, tenha a liberdade de restaurar sua identidade digital mesmo se a plataforma colapsar

Conclusão: devolver a web ao espaço pessoal

O armazenamento pessoal de dados não é apenas uma tecnologia, mas um retorno à filosofia original da internet
Estamos saindo de uma web centrada em plataformas para uma estrutura em que indivíduos e comunidades possuem e operam diretamente seus dados
As diferentes iniciativas de Solid, AT e ActivityPub convergem para o mesmo objetivo — devolver a web às pessoas

Links de referência

1 comentários

GN⁺ 2025-10-06

Comentários do Hacker News

Eu participo de um projeto FOSS chamado Blobcache
https://github.com/blobcache/blobcache
Acho que é completamente diferente um servidor armazenar o estado de uma aplicação e um servidor ter permissão para modificar isso ou ler os dados
No futuro, acredito que os servidores deveriam apenas guardar meus dados com segurança, enquanto os clientes ficam mais inteligentes
Quero uma arquitetura em que, ao usar um app, eu receba do servidor um estado criptografado de ponta a ponta (E2E), modifique isso e grave de volta no servidor os novos dados criptografados
O servidor deveria ser responsável apenas pela durabilidade dos dados, e nem seria preciso confiar que ele realmente está cumprindo bem esse papel
O Blobcache fornece uma API para que servidores de armazenamento “burros” e clientes “inteligentes” façam transações em um estado E2EE
Dá para instalar Blobcache e uma VPN como o Tailscale em hardware antigo e mover facilmente os dados de outros dispositivos
A configuração é parecida com SSH: basta adicionar a chave ao arquivo de configuração e o acesso é concedido
Isso elimina a maior parte do atrito no uso de armazenamento
Estou criando com Blobcache uma ferramenta de versionamento estilo Git com E2EE para o diretório home da casa inteira
https://github.com/gotvc/got
- A forma como o Peergos faz os apps usarem dados E2EE é muito parecida com o Blobcache
  Parece que seria ótimo colaborar, então quero tentar entrar em contato
  https://peergos.org/posts/a-better-web
- Também pode ser útil lembrar que existe https://remotestorage.io/ para armazenamento por usuário
Pelo que li, acho que propostas assim não passam no teste evolutivo
Para executar uma ideia em larga escala, é preciso melhorar gradualmente a situação atual, passo a passo, em vez de desenhar um objetivo distante
A situação atual já está perto de um máximo local relativamente alto, e quem propõe novas formas de controle da informação até agora só apresentou caminhos com custo ou esforço muito grandes
Não é preciso conhecer todo o processo, mas pelo menos as duas primeiras tentativas deveriam ser melhores do que o estado atual
No fim, se você quer voar, primeiro precisa evoluir penas
- Acho que um caminho realisticamente evolutivo seria o seguinte
  - Ao usar o Bluesky para conversar como alternativa ao Twitter, as pessoas vão se acostumando com o Fediverse e passam a ter um PDS (serviço de dados pessoais)
  - Guardando informações de pagamento no PDS, no começo já se torna possível uma nova experiência em que os dados de pagamento são enviados pelo lado do cliente
  - No passo seguinte, torna-se natural que varejistas forneçam um token para buscar os dados de pagamento no meu PDS
    Para os primeiros estabelecimentos a adotar isso, há um incentivo porque reduz o ônus de armazenar PCI/PII
  - À medida que mais usuários e varejistas se acostumam com esse modelo, se espalha a percepção de que controlar os próprios dados é melhor do que a UX inconveniente de hoje, como assinaturas difíceis de cancelar
  - Se armazenar dados de pagamento no PDS for tão fácil quanto armazená-los no navegador e ainda trouxer vantagens extras, a demanda cresce e a adoção acelera
  - Se tecnicamente os sites conseguirem operar sem armazenar PII/PCI, então também passa a ser viável criar leis proibindo esse armazenamento
- Em cada etapa, parece haver uma melhora em relação ao sistema atual
- Concordo com a ideia de que não pode ser uma grande mudança de uma vez só; é preciso haver melhorias perceptíveis em cada etapa
  Do ponto de vista do usuário comum, será que apenas “possuir meus dados” já faria a UX parecer realmente melhor?
  Se vier combinado com menos publicidade e com produtos que coloquem o usuário em primeiro lugar, talvez haja uma chance
  Fico preocupado porque parece haver muito trabalho que não gera muito dinheiro, mas mesmo assim continuo esperançoso
- Atualmente, 99,9% dos usuários do BlueSky usam apenas o serviço BlueSky, mas o BlueSky tem um Personal Data Service (PDS) para cada usuário
  A qualquer momento, a pessoa pode tirar seus dados do BlueSky e levá-los para outro lugar, e recentemente também passou a ser possível movê-los de volta para o BlueSky
  Em cada PDS é possível armazenar os dados desejados, por exemplo dados git do https://tangled.org, histórico de audição no https://teal.fm ou blogs no https://leaflet.pub
  Os casos de pessoas operando seu próprio PDS ou hospedando isso em nível comunitário estão aumentando rapidamente
  Também estão evoluindo os servidores de retransmissão que agregam e interligam os dados dos PDS; operar a camada de agregação que fornece conectividade total à rede é um pouco mais difícil, mas está melhorando gradualmente
  Em comparação com a estrutura anterior, isso é claramente algo digno de ser chamado de inovação, e dá para sentir a força do entusiasmo dos desenvolvedores
  Graças à separação da arquitetura, é possível avançar em várias áreas, e a base é sólida, então a escalabilidade também é alta
  Parece mesmo um experimento evolutivo acontecendo na prática, o que é animador
Gosto muito da ideia de armazenamento de dados pessoais e queria que isso virasse o padrão
Mas existe um problema que talvez seja tecnicamente impossível de resolver
Por exemplo, neste texto não há menção a “schema”, mas schema é um dos grandes fatores que impedem a verdadeira portabilidade de dados
Já vivi na prática como é difícil mudar o formato de campos até mesmo em apps CRUD simples
Posso exportar meus dados do Google ou do Facebook, mas reproduzir como esses dados apareciam e eram usados no app original é tão difícil que chega ao nível de ter de duplicar toda a UI original; e se o schema do serviço de origem muda, surgem problemas de renderização e integração, ou até perda de dados
Em silos de dados independentes, é possível mudar formatos livremente, mas se vários armazenamentos mudarem seus schemas de forma independente, no fim a sincronização se torna quase impossível e o risco de perda de dados cresce muito
Além disso, autorização e verificação de identidade por schema são problemas bem complicados
Por exemplo, é preciso restringir para que A só possa ver certos campos, mas no processo de sincronização entre vários servidores alguns deles não sabem quem é userA e acabam tratando os dados como se eles nem existissem
Em sistemas distribuídos, confiança, identidade e auditoria tornam o controle de acesso granular algo realmente difícil
Quando vejo os posts em alta no Hacker News hoje em dia, sempre voltam ideias como “vamos retomar a web” ou “vamos reviver o self-hosting, a federação e tudo mais como nos anos 90”
Na prática, parece que nada muda e tudo só piora, e seguem surgindo gerações que não conheceram a sensação da internet dos anos 90 ou de antes da popularização dos dispositivos móveis
Hoje, para se cadastrar em qualquer coisa, acabamos apenas multiplicando cópias desnecessárias de dados pessoais em inúmeros bancos de dados pelo mundo, e depois isso é hackeado, mal utilizado, vendido ou abandonado
Nem sei se existe solução, e às vezes parece que seria mais fácil dar a volta ao mundo
- Na Europa, esse problema de dados pessoais está praticamente resolvido em grande parte
  Como a lei realmente tem efeito, empresas sérias não podem simplesmente armazenar ou vender dados ilegalmente
  Mas parece que as pessoas só enxergam a parte superficial, como banners de cookies, e não percebem bem os resultados reais
  Na prática, é a Europa que está liderando mudanças no mundo digital que melhoram a qualidade de vida dos cidadãos
  Um exemplo são transferências bancárias instantâneas sem tarifa, tratadas como bem público
- Se até nós, que de fato vivemos uma época diferente, desistirmos porque “nada muda”, então aí sim nada vai mudar
  Na prática, hoje é historicamente o momento mais fácil e simples para construir alternativas open source e self-hosted
  As pessoas características da internet dos anos 90 ainda existem, e continuam ativas online no estilo de antes
  O que mudou é que a internet ficou muito mais simples e acessível, a ponto de poder ser usada facilmente pela maioria das pessoas comuns, que não a veem como algo divertido ou mágico
  Fico um pouco decepcionado com a postura de tratar o ambiente online atual como se fosse sempre ruim, porque isso menospreza serviços e comunidades valiosos que ainda restam
  Os serviços antigos talvez não sejam polidos nem elegantes, mas continuam existindo e cumprindo um papel
- Sobre a preocupação de não saber o que fazer com a cópia indiscriminada de dados pessoais, seu abandono, hackeamento e venda, acho que isso só melhora quando dados passam a ser vistos pelos seus detentores como um “passivo perigoso”
  Por exemplo, casos como “Megabank vai à falência e executivos são presos após vazamento de dados” precisariam se tornar comuns para mudar de vez a atitude em relação ao gerenciamento de dados
  Enquanto continuar no modelo “mais um vazamento de dados, desta vez com LifeLock grátis!”, vai ser difícil mudar essa percepção
- O motivo de o exemplo citado não ser mera fantasia é que Bluesky e AT-net já são redes em operação real e têm impacto suficiente no mundo concreto para serem vistas como ameaça por vários países autoritários
- A solução mais convincente e razoável que já vi para esse problema é o padrão Solid, criado por Tim Berners Lee, o inventor da web
  [https://en.wikipedia.org/wiki/Solid_(web_decentralization_project)](https://en.wikipedia.org/wiki/Solid_(web_decentralization_pr...)
  Acho que isso já basta para lhe dar legitimidade para mudar a estrutura de dados da internet, e a tecnologia do Solid em si também é bastante sólida
  O problema é que o Solid não conseguiu se disseminar amplamente
  Provavelmente porque a web atual é gigantesca demais, e a maior parte da stack existente não foi pensada com “propriedade real dos dados” como premissa
  Não se trata apenas de trocar algumas bibliotecas, mas de repensar de forma fundamental o desenvolvimento e o processamento de dados, o que cria uma barreira de entrada para adoção
  A equipe do Solid entende bem esse problema e vem criando boas ferramentas e bibliotecas para tornar a adoção aos poucos mais fácil em novos projetos
  Por isso tenho bastante expectativa quanto ao futuro e à escalabilidade do Solid
Não concordo com a afirmação de que, “em vez de ficar distribuído entre várias empresas e sites, meus dados ficam em um único lugar sob meu controle”
Na prática, no momento em que você envia dados para um site, esse site pode copiá-los e vendê-los livremente, e não existe um meio realmente eficaz de impedir isso
No fim, isso me parece apenas transferir para o usuário a responsabilidade por mobilidade e interoperabilidade dos dados, além do bloqueio e do gerenciamento de spam, em vez de deixar isso com os sites
Não parece que o problema fundamental de privacidade ou de “eu controlar diretamente com quem compartilho minhas informações” tenha sido resolvido
Mesmo que eu forneça meus dados apenas ao site A e não ao corretor de dados B, nada impede A de vender esses dados para B
Na prática, isso não seria tão diferente do que já temos hoje
Para manter os dados realmente em um só lugar, eu teria de não compartilhar dado nenhum com sites ou serviços externos, o que não é viável no mundo real
- Não dá para impedir, mas pelo menos o que terceiros levam é uma “cópia”
  A propriedade dos meus dados continua sendo minha, e fica muito mais fácil acessá-los, compartilhá-los, fazer backup e analisá-los em um único lugar
  Isso ajuda muito a libertar os dados do lock-in
  Também não é impossível descobrir se um terceiro vendeu meus dados e processá-lo, e a não exclusividade dos formatos de dados passaria a ser obrigatória
  Ainda assim, me parece muito melhor do que o sistema atual
- Se eu puder afirmar com clareza a originalidade e a propriedade dos meus dados, acho que dá para proibir a revenda
  Na Europa (UE), já existe de fato o direito de exigir que empresas “apaguem dados pessoais” e
  esse tipo de direito fica mais fácil de reivindicar quanto mais claramente se define que os dados “são meus”
- Dados recentes têm muito mais valor do que dados antigos
  Eu poderia gerenciar diretamente para quem forneço quais dados e para qual finalidade, além de ativar e desativar permissões de acesso quando necessário
  A revenda de dados deveria ser considerada ilegal por princípio
  Assim como é senso comum que um advogado ou um médico não pode vender minhas informações, a mesma lei deveria valer para qualquer um que processe dados pessoais
O desejo de hospedar tudo por conta própria sempre existiu
Mas essa tendência se espalhou porque empresas acham a centralização mais fácil e ainda conseguem monetizar os dados a partir disso
- Na verdade, é muito mais fácil para o usuário usar grandes serviços como Facebook, instagram e gmail do que hospedar por conta própria, e como todo mundo está lá, também é mais conveniente permanecer lá
  Acho que ainda não surgiram soluções descentralizadas suficientemente acessíveis para o usuário comum, e os incentivos práticos também são fracos
  Se essa questão de acessibilidade não for resolvida na raiz, vai ser difícil mudar a tendência
- Pela experiência com o Plex, sinto que as pessoas têm muito mais vontade de self-hosting do que imaginamos, mas é difícil organizar isso claramente em pensamento
  O Plex não é uma solução totalmente self-hosted, mas está bem mais próximo disso do que serviços como Netflix, e ultimamente tem aumentado o número de pessoas sem grande habilidade em TI tentando configurar seu próprio servidor Plex
  Muitas vezes, não é só porque querem ver filmes de graça, mas porque estão começando isso pelos filhos
  Ao fazer a própria curadoria de conteúdo, conseguem controlar melhor o que a criança assiste e isso traz muito mais tranquilidade
  É parecido com a sensação de alívio que os pais tinham quando limitavam os canais de TV na nossa infância
  Hoje muita gente sente que a internet é caótica demais e cheia de riscos, e cresce o número de pais que querem recuperar com as próprias mãos ao menos um pouco do controle
  Tenho curiosidade para ver se esse tipo de pensamento um dia pode levar a um movimento mais útil
Fiquei feliz por ver mencionarem o Opera Unite
Era uma ideia inovadora, em que qualquer pessoa podia criar facilmente um site estático simples só com o navegador, sem conhecimento especial
Se isso tivesse dado certo e consolidado uma cultura em que as pessoas compartilhassem seu próprio conteúdo com autonomia, teríamos hoje uma internet muito mais saudável em vez das redes sociais cheias de comercialização e manipulação
Gosto muito do conceito de PDS (serviço de dados pessoais)
Mas acho que a comunidade precisa tratar com prioridade maior problemas como fazendas de conteúdo, spam e clareza sobre a origem original do conteúdo
Sem esse tipo de proteção, agentes maliciosos podem facilmente desestruturar um modelo federado
Basta olhar para a rede de e-mail (SMTP) para ver como esse problema é sério
Apps verticalmente integrados têm custo operacional muito menor
O Instagram armazena apenas parte das fotos, mas é extremamente lucrativo
Já serviços de conta como o iCloud quase não têm API web e, na prática, são voltados só para dispositivos Apple, mas ainda assim as pessoas pagam de bom grado por isso (nem que seja só para evitar comprar um iPhone com mais armazenamento)
Mesmo assim, não existem tantos apps funcionando de forma independente sobre um sistema de arquivos web porque
1. a Amazon cobra tráfego/largura de banda muito mais caro do que armazenamento, então acessar meus próprios dados custa caro se eles não estiverem fisicamente no mesmo datacenter
2. há uma grande diferença de segurança e usabilidade entre selecionar uma única foto e dar acesso à pasta inteira do Dropbox
  No fim, quando você realmente usa soluções genéricas, muitas delas são lentas demais ou inviáveis na prática por causa de velocidade e custo
  Se o usuário já estiver pagando pelo armazenamento em duplicidade, quase ninguém vai querer arcar também com custo extra de largura de banda
Acho difícil concordar com a afirmação de que “o debate sobre propriedade de dados muda quando os dados ficam armazenados em organizações centradas em pessoas, e não em empresas”
Empresas também são organizações operadas por pessoas
Elas são controladas por acionistas por meio do conselho; não são administradas por alienígenas e o sistema não se move sozinho
Talvez a intenção fosse se opor a empresas com fins lucrativos, nas quais os clientes do serviço não podem votar diretamente na administração
A palavra “empresa” às vezes é usada quase como sinônimo de “força do mal”, mas no fim é apenas uma organização pertencente a algumas pessoas específicas
E é curioso que o exemplo “@alice.com” use justamente .com, que ironicamente representa o domínio comercial
https://en.wikipedia.org/wiki/Institution#Examples
https://en.wikipedia.org/wiki/.com
- Na prática, hoje em dia .com me parece ter menos sentido comercial e mais a sensação de domínio “oficial, padrão, principal”
  Mesmo em sites não comerciais, é comum tentarem primeiro um endereço .com

A era do armazenamento de dados pessoais chegou

A visão de Tim Berners-Lee: Socially Aware Cloud Storage

O surgimento e a evolução do protocolo Solid

O protocolo AT e os servidores pessoais de dados (PDS)

A ascensão das cooperativas de dados (Data Co-op)

Um novo paradigma de soberania de dados

Conclusão: devolver a web ao espaço pessoal

Links de referência

Leituras relacionadas

1 comentários

Comentários do Hacker News