- O conceito de armazenamento de dados centrado no usuário proposto pelo criador da web, Tim Berners-Lee, está se tornando realidade
- Sua ideia inicial, o protocolo Solid, busca uma estrutura em que a pessoa seja dona direta dos próprios dados, e os aplicativos só possam acessá-los com sua permissão
- Mais recentemente, o protocolo AT do Bluesky vem evoluindo na mesma direção, implementando uma web social descentralizada que armazena dados em servidores pessoais (PDS)
- Esse armazenamento pessoal de dados está indo além da implementação técnica e se expandindo para estruturas de cooperativas de dados (Data Coop), de propriedade e operação dos próprios cidadãos
- No fim, isso pode ser visto como um movimento para devolver a web ao espaço pessoal, uma tentativa de reconfigurar de forma fundamental a estrutura de internet dependente de plataformas
A visão de Tim Berners-Lee: Socially Aware Cloud Storage
- Em 2009, Berners-Lee propôs o “Socially Aware Cloud Storage”, uma especificação da web desenhada para que os aplicativos operem sobre uma camada de armazenamento independente
- Os usuários são gerenciados por identificadores globais baseados em URI, e o controle de acesso é feito de forma padronizada
- Os repositórios de dados são separados dos aplicativos e definidos como recursos genéricos e substituíveis
O surgimento e a evolução do protocolo Solid
- Em 2015, Tim Berners-Lee garantiu financiamento para o desenvolvimento do protocolo Solid e conduziu pesquisas no MIT
- O objetivo do Solid é construir uma arquitetura web que devolva a propriedade dos dados ao usuário e permita alternar livremente entre aplicativos
- O usuário gerencia seus dados em um só lugar, e os aplicativos precisam solicitá-los com a autorização da pessoa
- O Solid evoluiu para uma especificação web oficial do W3C, mas ainda não chegou à adoção em massa
- A Inrupt, cofundada por Berners-Lee, está comercializando a tecnologia com foco no mercado corporativo
O protocolo AT e os servidores pessoais de dados (PDS)
- O protocolo AT (Atproto), desenvolvido pela equipe do Bluesky, é hoje uma rede social aberta usada por mais de 30 milhões de pessoas
- Embora a estrutura técnica seja diferente da do Solid, a filosofia de armazenamento de dados com soberania do usuário é a mesma
- No protocolo AT, os dados pessoais ficam armazenados em um Personal Data Server (PDS), semelhante ao conceito de “Pod” do Solid
- O usuário pode usar seu próprio domínio como handle de internet, mantendo uma identidade independente entre diferentes redes sociais
- Exemplo: uma estrutura em que um domínio pessoal é usado como handle, como
@alice.com
A ascensão das cooperativas de dados (Data Co-op)
- A maioria das pessoas comuns ainda prefere armazenamento institucional em nuvem a um PC pessoal
- Está em discussão uma transição para uma estrutura de banco de dados de propriedade coletiva dos membros, semelhante ao modelo de cooperativas de crédito dos bancos tradicionais
- Trata-se da aplicação do modelo de credit union aos dados, com gestão transparente e centrada nos membros como ponto principal
- Na prática, plataformas cooperativas de dados como
social.coop, data.coop e cosocial.ca já operam ativamente no ecossistema do fediverso
- O novo projeto Northsky também está sendo preparado como uma instituição coletiva de dados baseada na rede AT
- Essas organizações não precisam ser legalmente cooperativas; o termo inclui qualquer formato que realize gestão de dados democrática e transparente
Um novo paradigma de soberania de dados
- Quando os dados são armazenados em instituições controladas por cidadãos, e não por empresas, o foco do debate sobre propriedade dos dados muda
- Em vez de “quais dados podemos baixar”, a pergunta passa a ser “quais dados a plataforma pode copiar dos nossos servidores”
- O intercâmbio técnico entre Solid e AT também está crescendo, e as discussões sobre interoperabilidade com padrões como o ActivityPub estão ativas
- O armazenamento pessoal de dados agora se expandiu para além de um protocolo específico, e os formatos de dados são convertíveis, enquanto os protocolos são intercambiáveis
- O ponto central é garantir que a pessoa, ao controlar seus próprios dados, tenha a liberdade de restaurar sua identidade digital mesmo se a plataforma colapsar
Conclusão: devolver a web ao espaço pessoal
- O armazenamento pessoal de dados não é apenas uma tecnologia, mas um retorno à filosofia original da internet
- Estamos saindo de uma web centrada em plataformas para uma estrutura em que indivíduos e comunidades possuem e operam diretamente seus dados
- As diferentes iniciativas de Solid, AT e ActivityPub convergem para o mesmo objetivo — devolver a web às pessoas
Links de referência
1 comentários
Comentários do Hacker News
Eu participo de um projeto FOSS chamado Blobcache
https://github.com/blobcache/blobcache
Acho que é completamente diferente um servidor armazenar o estado de uma aplicação e um servidor ter permissão para modificar isso ou ler os dados
No futuro, acredito que os servidores deveriam apenas guardar meus dados com segurança, enquanto os clientes ficam mais inteligentes
Quero uma arquitetura em que, ao usar um app, eu receba do servidor um estado criptografado de ponta a ponta (E2E), modifique isso e grave de volta no servidor os novos dados criptografados
O servidor deveria ser responsável apenas pela durabilidade dos dados, e nem seria preciso confiar que ele realmente está cumprindo bem esse papel
O Blobcache fornece uma API para que servidores de armazenamento “burros” e clientes “inteligentes” façam transações em um estado E2EE
Dá para instalar Blobcache e uma VPN como o Tailscale em hardware antigo e mover facilmente os dados de outros dispositivos
A configuração é parecida com SSH: basta adicionar a chave ao arquivo de configuração e o acesso é concedido
Isso elimina a maior parte do atrito no uso de armazenamento
Estou criando com Blobcache uma ferramenta de versionamento estilo Git com E2EE para o diretório home da casa inteira
https://github.com/gotvc/got
A forma como o Peergos faz os apps usarem dados E2EE é muito parecida com o Blobcache
Parece que seria ótimo colaborar, então quero tentar entrar em contato
https://peergos.org/posts/a-better-web
Também pode ser útil lembrar que existe https://remotestorage.io/ para armazenamento por usuário
Pelo que li, acho que propostas assim não passam no teste evolutivo
Para executar uma ideia em larga escala, é preciso melhorar gradualmente a situação atual, passo a passo, em vez de desenhar um objetivo distante
A situação atual já está perto de um máximo local relativamente alto, e quem propõe novas formas de controle da informação até agora só apresentou caminhos com custo ou esforço muito grandes
Não é preciso conhecer todo o processo, mas pelo menos as duas primeiras tentativas deveriam ser melhores do que o estado atual
No fim, se você quer voar, primeiro precisa evoluir penas
Acho que um caminho realisticamente evolutivo seria o seguinte
Para os primeiros estabelecimentos a adotar isso, há um incentivo porque reduz o ônus de armazenar PCI/PII
Em cada etapa, parece haver uma melhora em relação ao sistema atual
Concordo com a ideia de que não pode ser uma grande mudança de uma vez só; é preciso haver melhorias perceptíveis em cada etapa
Do ponto de vista do usuário comum, será que apenas “possuir meus dados” já faria a UX parecer realmente melhor?
Se vier combinado com menos publicidade e com produtos que coloquem o usuário em primeiro lugar, talvez haja uma chance
Fico preocupado porque parece haver muito trabalho que não gera muito dinheiro, mas mesmo assim continuo esperançoso
Atualmente, 99,9% dos usuários do BlueSky usam apenas o serviço BlueSky, mas o BlueSky tem um Personal Data Service (PDS) para cada usuário
A qualquer momento, a pessoa pode tirar seus dados do BlueSky e levá-los para outro lugar, e recentemente também passou a ser possível movê-los de volta para o BlueSky
Em cada PDS é possível armazenar os dados desejados, por exemplo dados git do https://tangled.org, histórico de audição no https://teal.fm ou blogs no https://leaflet.pub
Os casos de pessoas operando seu próprio PDS ou hospedando isso em nível comunitário estão aumentando rapidamente
Também estão evoluindo os servidores de retransmissão que agregam e interligam os dados dos PDS; operar a camada de agregação que fornece conectividade total à rede é um pouco mais difícil, mas está melhorando gradualmente
Em comparação com a estrutura anterior, isso é claramente algo digno de ser chamado de inovação, e dá para sentir a força do entusiasmo dos desenvolvedores
Graças à separação da arquitetura, é possível avançar em várias áreas, e a base é sólida, então a escalabilidade também é alta
Parece mesmo um experimento evolutivo acontecendo na prática, o que é animador
Gosto muito da ideia de armazenamento de dados pessoais e queria que isso virasse o padrão
Mas existe um problema que talvez seja tecnicamente impossível de resolver
Por exemplo, neste texto não há menção a “schema”, mas schema é um dos grandes fatores que impedem a verdadeira portabilidade de dados
Já vivi na prática como é difícil mudar o formato de campos até mesmo em apps CRUD simples
Posso exportar meus dados do Google ou do Facebook, mas reproduzir como esses dados apareciam e eram usados no app original é tão difícil que chega ao nível de ter de duplicar toda a UI original; e se o schema do serviço de origem muda, surgem problemas de renderização e integração, ou até perda de dados
Em silos de dados independentes, é possível mudar formatos livremente, mas se vários armazenamentos mudarem seus schemas de forma independente, no fim a sincronização se torna quase impossível e o risco de perda de dados cresce muito
Além disso, autorização e verificação de identidade por schema são problemas bem complicados
Por exemplo, é preciso restringir para que A só possa ver certos campos, mas no processo de sincronização entre vários servidores alguns deles não sabem quem é userA e acabam tratando os dados como se eles nem existissem
Em sistemas distribuídos, confiança, identidade e auditoria tornam o controle de acesso granular algo realmente difícil
Quando vejo os posts em alta no Hacker News hoje em dia, sempre voltam ideias como “vamos retomar a web” ou “vamos reviver o self-hosting, a federação e tudo mais como nos anos 90”
Na prática, parece que nada muda e tudo só piora, e seguem surgindo gerações que não conheceram a sensação da internet dos anos 90 ou de antes da popularização dos dispositivos móveis
Hoje, para se cadastrar em qualquer coisa, acabamos apenas multiplicando cópias desnecessárias de dados pessoais em inúmeros bancos de dados pelo mundo, e depois isso é hackeado, mal utilizado, vendido ou abandonado
Nem sei se existe solução, e às vezes parece que seria mais fácil dar a volta ao mundo
Na Europa, esse problema de dados pessoais está praticamente resolvido em grande parte
Como a lei realmente tem efeito, empresas sérias não podem simplesmente armazenar ou vender dados ilegalmente
Mas parece que as pessoas só enxergam a parte superficial, como banners de cookies, e não percebem bem os resultados reais
Na prática, é a Europa que está liderando mudanças no mundo digital que melhoram a qualidade de vida dos cidadãos
Um exemplo são transferências bancárias instantâneas sem tarifa, tratadas como bem público
Se até nós, que de fato vivemos uma época diferente, desistirmos porque “nada muda”, então aí sim nada vai mudar
Na prática, hoje é historicamente o momento mais fácil e simples para construir alternativas open source e self-hosted
As pessoas características da internet dos anos 90 ainda existem, e continuam ativas online no estilo de antes
O que mudou é que a internet ficou muito mais simples e acessível, a ponto de poder ser usada facilmente pela maioria das pessoas comuns, que não a veem como algo divertido ou mágico
Fico um pouco decepcionado com a postura de tratar o ambiente online atual como se fosse sempre ruim, porque isso menospreza serviços e comunidades valiosos que ainda restam
Os serviços antigos talvez não sejam polidos nem elegantes, mas continuam existindo e cumprindo um papel
Sobre a preocupação de não saber o que fazer com a cópia indiscriminada de dados pessoais, seu abandono, hackeamento e venda, acho que isso só melhora quando dados passam a ser vistos pelos seus detentores como um “passivo perigoso”
Por exemplo, casos como “Megabank vai à falência e executivos são presos após vazamento de dados” precisariam se tornar comuns para mudar de vez a atitude em relação ao gerenciamento de dados
Enquanto continuar no modelo “mais um vazamento de dados, desta vez com LifeLock grátis!”, vai ser difícil mudar essa percepção
O motivo de o exemplo citado não ser mera fantasia é que Bluesky e AT-net já são redes em operação real e têm impacto suficiente no mundo concreto para serem vistas como ameaça por vários países autoritários
A solução mais convincente e razoável que já vi para esse problema é o padrão Solid, criado por Tim Berners Lee, o inventor da web
[https://en.wikipedia.org/wiki/Solid_(web_decentralization_project)](https://en.wikipedia.org/wiki/Solid_(web_decentralization_pr...)
Acho que isso já basta para lhe dar legitimidade para mudar a estrutura de dados da internet, e a tecnologia do Solid em si também é bastante sólida
O problema é que o Solid não conseguiu se disseminar amplamente
Provavelmente porque a web atual é gigantesca demais, e a maior parte da stack existente não foi pensada com “propriedade real dos dados” como premissa
Não se trata apenas de trocar algumas bibliotecas, mas de repensar de forma fundamental o desenvolvimento e o processamento de dados, o que cria uma barreira de entrada para adoção
A equipe do Solid entende bem esse problema e vem criando boas ferramentas e bibliotecas para tornar a adoção aos poucos mais fácil em novos projetos
Por isso tenho bastante expectativa quanto ao futuro e à escalabilidade do Solid
Não concordo com a afirmação de que, “em vez de ficar distribuído entre várias empresas e sites, meus dados ficam em um único lugar sob meu controle”
Na prática, no momento em que você envia dados para um site, esse site pode copiá-los e vendê-los livremente, e não existe um meio realmente eficaz de impedir isso
No fim, isso me parece apenas transferir para o usuário a responsabilidade por mobilidade e interoperabilidade dos dados, além do bloqueio e do gerenciamento de spam, em vez de deixar isso com os sites
Não parece que o problema fundamental de privacidade ou de “eu controlar diretamente com quem compartilho minhas informações” tenha sido resolvido
Mesmo que eu forneça meus dados apenas ao site A e não ao corretor de dados B, nada impede A de vender esses dados para B
Na prática, isso não seria tão diferente do que já temos hoje
Para manter os dados realmente em um só lugar, eu teria de não compartilhar dado nenhum com sites ou serviços externos, o que não é viável no mundo real
Não dá para impedir, mas pelo menos o que terceiros levam é uma “cópia”
A propriedade dos meus dados continua sendo minha, e fica muito mais fácil acessá-los, compartilhá-los, fazer backup e analisá-los em um único lugar
Isso ajuda muito a libertar os dados do lock-in
Também não é impossível descobrir se um terceiro vendeu meus dados e processá-lo, e a não exclusividade dos formatos de dados passaria a ser obrigatória
Ainda assim, me parece muito melhor do que o sistema atual
Se eu puder afirmar com clareza a originalidade e a propriedade dos meus dados, acho que dá para proibir a revenda
Na Europa (UE), já existe de fato o direito de exigir que empresas “apaguem dados pessoais” e
esse tipo de direito fica mais fácil de reivindicar quanto mais claramente se define que os dados “são meus”
Dados recentes têm muito mais valor do que dados antigos
Eu poderia gerenciar diretamente para quem forneço quais dados e para qual finalidade, além de ativar e desativar permissões de acesso quando necessário
A revenda de dados deveria ser considerada ilegal por princípio
Assim como é senso comum que um advogado ou um médico não pode vender minhas informações, a mesma lei deveria valer para qualquer um que processe dados pessoais
O desejo de hospedar tudo por conta própria sempre existiu
Mas essa tendência se espalhou porque empresas acham a centralização mais fácil e ainda conseguem monetizar os dados a partir disso
Na verdade, é muito mais fácil para o usuário usar grandes serviços como Facebook, instagram e gmail do que hospedar por conta própria, e como todo mundo está lá, também é mais conveniente permanecer lá
Acho que ainda não surgiram soluções descentralizadas suficientemente acessíveis para o usuário comum, e os incentivos práticos também são fracos
Se essa questão de acessibilidade não for resolvida na raiz, vai ser difícil mudar a tendência
Pela experiência com o Plex, sinto que as pessoas têm muito mais vontade de self-hosting do que imaginamos, mas é difícil organizar isso claramente em pensamento
O Plex não é uma solução totalmente self-hosted, mas está bem mais próximo disso do que serviços como Netflix, e ultimamente tem aumentado o número de pessoas sem grande habilidade em TI tentando configurar seu próprio servidor Plex
Muitas vezes, não é só porque querem ver filmes de graça, mas porque estão começando isso pelos filhos
Ao fazer a própria curadoria de conteúdo, conseguem controlar melhor o que a criança assiste e isso traz muito mais tranquilidade
É parecido com a sensação de alívio que os pais tinham quando limitavam os canais de TV na nossa infância
Hoje muita gente sente que a internet é caótica demais e cheia de riscos, e cresce o número de pais que querem recuperar com as próprias mãos ao menos um pouco do controle
Tenho curiosidade para ver se esse tipo de pensamento um dia pode levar a um movimento mais útil
Fiquei feliz por ver mencionarem o Opera Unite
Era uma ideia inovadora, em que qualquer pessoa podia criar facilmente um site estático simples só com o navegador, sem conhecimento especial
Se isso tivesse dado certo e consolidado uma cultura em que as pessoas compartilhassem seu próprio conteúdo com autonomia, teríamos hoje uma internet muito mais saudável em vez das redes sociais cheias de comercialização e manipulação
Gosto muito do conceito de PDS (serviço de dados pessoais)
Mas acho que a comunidade precisa tratar com prioridade maior problemas como fazendas de conteúdo, spam e clareza sobre a origem original do conteúdo
Sem esse tipo de proteção, agentes maliciosos podem facilmente desestruturar um modelo federado
Basta olhar para a rede de e-mail (SMTP) para ver como esse problema é sério
Apps verticalmente integrados têm custo operacional muito menor
O Instagram armazena apenas parte das fotos, mas é extremamente lucrativo
Já serviços de conta como o iCloud quase não têm API web e, na prática, são voltados só para dispositivos Apple, mas ainda assim as pessoas pagam de bom grado por isso (nem que seja só para evitar comprar um iPhone com mais armazenamento)
Mesmo assim, não existem tantos apps funcionando de forma independente sobre um sistema de arquivos web porque
No fim, quando você realmente usa soluções genéricas, muitas delas são lentas demais ou inviáveis na prática por causa de velocidade e custo
Se o usuário já estiver pagando pelo armazenamento em duplicidade, quase ninguém vai querer arcar também com custo extra de largura de banda
Acho difícil concordar com a afirmação de que “o debate sobre propriedade de dados muda quando os dados ficam armazenados em organizações centradas em pessoas, e não em empresas”
Empresas também são organizações operadas por pessoas
Elas são controladas por acionistas por meio do conselho; não são administradas por alienígenas e o sistema não se move sozinho
Talvez a intenção fosse se opor a empresas com fins lucrativos, nas quais os clientes do serviço não podem votar diretamente na administração
A palavra “empresa” às vezes é usada quase como sinônimo de “força do mal”, mas no fim é apenas uma organização pertencente a algumas pessoas específicas
E é curioso que o exemplo “@alice.com” use justamente .com, que ironicamente representa o domínio comercial
https://en.wikipedia.org/wiki/Institution#Examples
https://en.wikipedia.org/wiki/.com
Mesmo em sites não comerciais, é comum tentarem primeiro um endereço .com