- Injeção de ruído, usada para criar estatísticas públicas a partir de conjuntos de dados confidenciais, é uma ferramenta de prevenção de divulgação que oculta dados pessoais do material original enquanto mantém a utilidade estatística
- Uma ordem do Departamento de Comércio dos EUA proíbe a injeção de ruído em todos os produtos estatísticos do Census Bureau e do Bureau of Economic Analysis, mirando diretamente a privacidade diferencial
- O Census Bureau usou principalmente troca de registros nas pesquisas censitárias decenais de 1990 a 2010, mas, depois que ficou claro como era fácil reconstruir registros individuais a partir de estatísticas públicas, adotou a privacidade diferencial no Censo de 2020
- A privacidade diferencial combina limitação de contribuição com adição de ruído cuidadosamente calibrado para oferecer maior utilidade com um nível de privacidade semelhante
- Sem o ruído, futuras divulgações estatísticas podem se tornar muito menos úteis do que as do passado ou dados extremamente inseguros
Contexto
- Produtos estatísticos são vários números divulgados a partir de conjuntos de dados confidenciais, e, quando esses conjuntos contêm informações sigilosas, os números publicados não devem revelar essas informações
- O Censo dos EUA é um exemplo representativo: as estatísticas são públicas, mas o conteúdo de cada formulário preenchido por residentes dos EUA deve permanecer confidencial
- Na área de estatística, as técnicas para publicar estatísticas úteis enquanto se protege a privacidade dos dados originais são chamadas de prevenção de divulgação
- Entre essas técnicas estão a supressão, que remove dados que não atingem certos critérios, a generalização, que torna atributos menos precisos, e a amostragem, que remove aleatoriamente alguns registros
- As técnicas de prevenção de divulgação também incluem swapping, que troca aleatoriamente atributos entre registros diferentes, limitação de contribuição, que restringe o impacto máximo de uma única pessoa, e adição de ruído, que soma valores aleatórios às estatísticas
-
Privacidade diferencial e o Censo de 2020
- Ao combinar algumas dessas técnicas, é possível alcançar privacidade diferencial, amplamente considerada entre cientistas como o padrão-ouro da proteção de privacidade
- A privacidade diferencial normalmente depende da combinação entre limitação de contribuição e adição de ruído cuidadosamente calibrada
- O Census Bureau usou principalmente swapping nos censos decenais de 1990 a 2010
- Depois, reconheceu que o swapping era muito inseguro e que era fácil reconstruir registros individuais usando apenas estatísticas públicas
- Como o órgão é legalmente obrigado por lei federal a manter esses registros confidenciais, testou algumas alternativas e adotou a privacidade diferencial no Censo de 2020 por ter sido a abordagem que melhor preservou a utilidade das estatísticas ao mesmo tempo em que bloqueava o ataque
-
Queda de utilidade e reação contrária
- A privacidade diferencial foi escolhida não por elegância matemática, mas porque, entre várias opções para mitigar o ataque, era a que mais preservava a utilidade dos dados
- Os parâmetros exatos de privacidade também não foram escolhidos por oferecerem garantias formais especialmente fortes, mas para extrair o máximo de utilidade dos dados enquanto se alcançava um nível aceitável de proteção de privacidade
- Dizer que ela preservava mais utilidade sob as novas restrições de privacidade descobertas não significava preservar a mesma utilidade do Censo de 2010
- Os números ficaram menos precisos, e a imprecisão ficou muito mais transparente, tornando-se difícil de ignorar
- Demógrafos e cientistas sociais deixaram de poder ignorar que os dados com que trabalham contêm ruído, e isso exigiu uma grande mudança na forma de conceituar e lidar com esses dados
- Pessoas que de fato usavam dados do Censo para reconstruir registros individuais deixaram de poder fazer isso, e demógrafos reconheceram que isso era uma prática comum
- Também era um segredo aberto que operadores políticos faziam esse tipo de reconstrução como parte de esforços de gerrymandering
Conteúdo da ordem
- O governo decidiu que a injeção de ruído não é mais uma técnica aceitável de prevenção de divulgação
- A ordem mira explicitamente a privacidade diferencial, mas parece também afetar outras técnicas que envolvem aleatoriedade
- O texto da ordem afirma que a generalização deve sempre ser priorizada e que a supressão só deve ser usada como “último recurso”
- Não está claro por que a ordem é tão específica
- A ordem afirma com cautela que “não deve ser interpretada como conflitante com a Constituição, leis, regulamentos ou outras disposições legais”, e as obrigações de confidencialidade em torno desses produtos estatísticos continuam valendo
Impacto real
- As consequências podem ser graves para a utilidade, para a privacidade, ou para ambas
- Futuras divulgações estatísticas podem ser menos úteis do que publicações anteriores ou inseguras a ponto de parecer inacreditável
- Remover uma ferramenta útil da caixa de ferramentas de prevenção de divulgação sempre torna mais dolorosa a troca entre privacidade e utilidade
- O objetivo dessa área de pesquisa é entender e quantificar melhor os riscos à privacidade e desenvolver ferramentas melhores para mitigá-los preservando a utilidade
-
O papel da privacidade diferencial
- Na divulgação estatística, a privacidade diferencial é a melhor ferramenta disponível hoje
- Ela oferece uma forma de quantificar essa troca com mais precisão e extrai mais utilidade dos dados do que técnicas concorrentes em níveis semelhantes de privacidade
- Remover a privacidade diferencial deixa apenas técnicas com menor utilidade no mesmo nível de privacidade, ou pior privacidade com a mesma utilidade
- Técnicas concorrentes também dependem de adição de ruído
-
Outras técnicas também usam aleatoriedade
- O método Cell Key, usado por outros órgãos estatísticos, adiciona ruído às estatísticas
- O swapping usado pelo Census de 1990 a 2010 também injeta aleatoriedade no processo
- A amostragem é amplamente usada em todo o trabalho estatístico
- A imputação) também, tecnicamente, adiciona ruído aos dados
-
Limites da generalização e da supressão
- Generalização e supressão são ferramentas muito grosseiras
- Elas só funcionam quando as estatísticas já são muito agregadas e quando a quantidade de estatísticas divulgadas é pequena
- Em produtos de dados complexos como o Censo dos EUA, com muitas estatísticas sobre grupos pequenos, generalização e supressão ou destroem toda a utilidade dos dados ou se tornam extremamente vulneráveis a ataques de privacidade
- A destruição de utilidade é especialmente forte para grupos minoritários
-
Por que o ruído dificulta ataques
- Ataques de privacidade contra divulgações estatísticas se parecem com resolver um sistema de equações
- Esse trabalho fica muito mais fácil quando se sabe com certeza que todas as estatísticas são perfeitamente exatas
- O ruído obriga o atacante a calcular probabilidades, quantificar incerteza e considerar cuidadosamente a linha de base
- A aleatoriedade é útil para prevenção de divulgação mesmo sem garantias formais e torna os ataques muito mais difíceis
- Sem aleatoriedade, os ataques se tornam triviais
Por que isso está acontecendo
- A motivação é desconhecida
- Não se sabe se o objetivo é forçar o Censo dos EUA a divulgar estatísticas que viabilizem reidentificação real para ajudar futuros esforços de gerrymandering
- Por outro lado, também não se sabe se o objetivo é impedir a divulgação de dados demográficos úteis para que pesquisadores não consigam mostrar desigualdades injustas na população
- A navalha de Hanlon oferece uma interpretação alternativa
- Existe uma troca fundamental entre privacidade e utilidade na divulgação de dados estatísticos, e essa troca é um problema incômodo
- A situação seria muito mais fácil se divulgar muitas estatísticas não implicasse automaticamente alto risco de privacidade
- A privacidade diferencial explicita essa troca e, por isso, torna impossível ignorá-la
- Banir a privacidade diferencial pode ser uma forma de fingir que o problema não existe e torcer para que ele desapareça
1 comentários
Comentários do Hacker News
Trabalhei como recenseador no último censo, e a confiança da comunidade já era baixa, embora também tenha tido muitos encontros interessantes
Eu coletava dados bastante invasivos com um rosto amigável, mas acreditava sinceramente que esses dados seriam usados e administrados com responsabilidade
Agora que o firewall que impedia a instrumentalização e monetização de dados governamentais sensíveis ruiu, sinto pena de quem vai bater de porta em porta em 2030, e mais ainda de quem voluntariamente fornecer informações que possam prejudicá-los
Também acho curioso o comentário de que “o censo caro é só para contar cabeças”. Os dados coletados eram uma linha de base importante para o entendimento comum, e isso não fará bem para a qualidade deles no futuro
Para referência, fui designado principalmente para domicílios sem resposta, então naturalmente parecia que as pessoas da minha região odiavam o governo, ignoravam panfletos estranhamente ameaçadores ou tinham se mudado recentemente e não conheciam quem morava ali durante o período da pesquisa
Desde pesquisas nacionais de opinião com dezenas de milhares de respondentes até pequenas pesquisas comunitárias, tudo depende disso
Os resultados do censo, com a participação mais diversa possível, trazem recompensas quase infinitas para os EUA e beneficiam desde jornais nacionais até condados rurais
Se as menores comunidades perderem até a confiança residual que ainda têm na privacidade do censo, serão elas que mais perderão em todos esses aspectos
E também é desanimador ver as pessoas continuarem sendo atraídas por um partido que diz com orgulho que quer abusar desses dados
Isso alimentou fortemente a desconfiança no governo, e já era difícil fazer as pessoas responderem pesquisas
Dá para entender por que uma pessoa comum não acreditaria que o Census Bureau realmente manteria seus dados seguros
Não importa o que digam a lei ou a Constituição: se você trabalha para algum órgão, logo parece ser apenas “o governo”. As taxas de resposta continuam caindo, e agora o presidente ataca até as estatísticas econômicas
Sendo cínico, parece que vão continuar reduzindo os órgãos estatísticos e tornando as estatísticas cada vez menos úteis. Essa mudança de política também aponta nessa direção, e no fim vão tentar passar isso para o setor privado
Mas o setor privado não consegue fazer o que o governo faz em campo
É preciso ter informação precisa para planejar melhorias e tornar a vida de todos melhor
A atitude de que “é só contar cabeças” revela de forma interessante o modo de pensar de muita gente hoje
Parece que não querem melhorar a vida, ou nem conseguem imaginar como fazer isso. É realmente triste
Na convenção estadual do Partido Republicano do Texas desta semana, sugeriram uma emenda para incluir no rascunho da plataforma uma posição contrária à privacidade diferencial
Disseram, com um exemplo de alguém que teria participado do censo, que 1 pessoa em situação de rua debaixo de uma ponte poderia virar 5 por causa da privacidade diferencial, então isso seria absurdamente ridículo pelo senso comum
Não sei se passou, mas esse é o tipo de pressão de base que empurra esse tipo de coisa
Acho isso bem triste. Idealmente, um país deveria conseguir enxergar a composição das pessoas que existem hoje, para que possamos tomar boas decisões sobre a organização que administramos juntos
Danificar deliberadamente a infraestrutura de coleta de dados me parece um erro do qual vamos nos arrepender depois
Acho que boa parte do sucesso dos EUA veio de boas instituições para lidar com dados detalhados. Isso permitia ajustar políticas aos resultados com mais rapidez
Entendo por que as pessoas querem reduzir toda capacidade estatal. Elas sentem que o governo está cheio de adversários e que essa capacidade será usada contra elas
Mas, quanto mais a força relativa diminui, menos capacidade existe para vencer essa inércia; o governo fica menos competente e, no fim, a vida começa a piorar
Não é necessário ter dados no nível de cada domicílio de imediato, mas pode haver exceções, como ao posicionar blocos censitários nos distritos eleitorais adequados. Ainda assim, acima de certo nível de agregação, devemos usar a melhor informação possível
Só torna o governo mais burro, de modo que depois, mesmo tentando fazer a coisa certa, ele não terá as informações necessárias para tomar decisões eficazes
O governo federal poderia ficar só com os dados agregados
Não se trata de “toda” capacidade estatal; o Estado só deveria ter a capacidade mínima absoluta para executar o que é necessário
Por exemplo, coletar informação racial não é absolutamente necessário, então não deveria ser feito
Porque no futuro o governo pode estar cheio de adversários. Indo além, os maiores danos causados por agentes do Estado vieram de forma consistente não de malícia intencional, mas de tentativas de “ajudar”
Se você considera importante ter um censo preciso, na verdade deveria comemorar
O censo pressupõe um certo nível de confiança, faça-se o que for
Confiança de que esses dados não serão identificados de modo a permitir fraude, golpes financeiros ou outros abusos
Mas em NY os registros de compra e venda de imóveis são públicos, e um efeito colateral disso é que muitas empresas de hipoteca enviam correspondências se passando por cobranças
A privacidade diferencial é absolutamente necessária, e o fato de cientistas sociais não conseguirem reconstruir dados em nível individual é um resultado intencional
Para a maioria dos objetivos, uma descrição macro já basta; exigir mais do que isso equivale a pedir um Estado de vigilância
Na Alemanha, não é comum que hipotecas ou os bancos que as detêm sejam repassados como se fossem uma batata quente para outro otário, então uma carta dessas despertaria suspeita imediatamente
É proibido no conjunto de dados, e pode ser adicionado na etapa de análise. Dá para escolher o tipo de ruído desejado
Não sei bem quais são as implicações políticas aqui, mas em algum nível é necessário ter os valores reais de referência, inclusive “esta pessoa/domicílio se recusou a responder”
Ainda assim, divulgar os dados brutos parece dar um tiro no próprio pé do ponto de vista da segurança nacional, além de haver muitos outros motivos para não fazer isso
Há muitas formas de fazer isso errado, e é por isso que tanta análise foi dedicada à privacidade diferencial
Em vez de a privacidade diferencial tornar esse conflito explícito e impossível de ignorar, talvez a ideia seja que um dos dois objetivos vale mais do que o outro e, portanto, não deve ser sacrificado
Fico surpreso com as reações de “tem que divulgar tudo” aqui, porque isso é um pensamento unidimensional no pior sentido
O censo é apenas fazer perguntas
Se você começa a divulgar dados sobre pessoas com vários atributos e a transformá-los em arma, as pessoas simplesmente vão mentir ou deixar de responder
Aí o que sobra são dados piores do que não ter dado nenhum, porque as pessoas vão tentar agir com base nesses dados ruins
Isso aconteceu pelo menos uma vez recentemente em outro país, então não acho que a preocupação seja exagerada
O exemplo mais óbvio é o fato de o Census Bureau ter feito listas de pessoas de origem japonesa durante a Segunda Guerra Mundial para uso no encarceramento
Acho que hoje o verdadeiro impulso é criar listas para cassar o direito de voto das pessoas
O censo existe para fornecer informações para determinar representatividade. O resto é funcionalidade adicional
Dá para ter dados no nível de condado ou distrito eleitoral, mas conforme a resolução aumenta, os dados devem ser removidos, de modo que no nível de bairro ou quarteirão reste apenas a contagem populacional
Saber a raça, etnia e contexto socioeconômico dos moradores de um quarteirão só serve para discriminá-los
Eu espero o recenseador aparecer e digo apenas quantas pessoas moram na minha residência
Isso é necessário para uma representação eleitoral adequada, e fora isso não é necessário em nada
É difícil demais conciliar essas coisas
Dizem que o Censo de 2020 adotou privacidade diferencial e que, se removerem esse único filtro, haverá “resultados terríveis” para a utilidade, para a privacidade, ou para ambas
Mas eles fazem censo há centenas de anos e estava tudo bem, e só no último censo adicionaram esse elemento de privacidade
Se remover um deles de repente cria uma situação terrível, isso parece estranho. Antes nem havia esse recurso de privacidade, então na verdade não estamos muito melhores do que há centenas de anos?
Por isso parece um problema exagerado em termos emocionais
Ataques à privacidade que antes eram impossíveis por custo agora podem ser feitos por trocados
Além disso, como foi apontado, as pessoas já usam dados do censo para manipulação de distritos eleitorais, então esses ataques são reais e já acontecem há muito tempo
No passado, dava para considerar que reconstruir registros individuais não era viável, pelo menos em larga escala. Hoje não dá mais para pensar assim
Uma senha de 4 dígitos pode ter sido segura por centenas de anos, mas hoje, pelo mesmo motivo, é uma irresponsabilidade do ponto de vista da segurança
Muitas das técnicas usadas hoje para reidentificar dados exigem capacidade computacional que antes não estava disponível
Mesmo quando seria possível, os recursos limitavam a escala. Digo isso como alguém formado em estatística
E há também a conectividade. Internet, redes sociais, rastreamento na web e invasões aumentaram muito as fontes de dados para cruzamento
Mesmo nas décadas de 1970 e 1980, o rastro documental dos americanos era dramaticamente menor do que é hoje
Só que os mecanismos anteriores não eram fortes e podiam ser quebrados, então foram substituídos por mecanismos mais robustos
1990 foi a época em que os computadores pessoais se popularizaram e a capacidade de computação disponível para indivíduos explodiu, e foi a partir daí que se tornou possível extrair informações pessoais dos dados divulgados pelo censo
Foi por isso que o problema surgiu. Não é um problema exagerado
Do ponto de vista de alguém de um determinado país europeu, não dá para saber que resposta no censo pode causar problemas
“Qual é a sua religião?” pode parecer totalmente inofensivo, mas quando, nos anos 1940, um ocupante estrangeiro conseguiu vincular essa resposta a indivíduos, ela se tornou retrospectivamente uma resposta fatal
As perguntas de 2020 eram quantas pessoas moravam ou estavam hospedadas nesta casa/apartamento/casa móvel em 1º de abril, se havia pessoas adicionais omitidas, qual era o tipo de moradia, número de telefone, nome da pessoa 1, sexo, idade e data de nascimento, se era hispânico/latino/espanhol e raça
Também não há nada de muito efetivo para impedir mentiras
Ninguém deve ser obrigado a divulgar informações sobre crenças religiosas ou filiação a organização religiosa
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
Também fez listas de judeus, porque poderiam ser úteis algum dia para alguma coisa, e os alemães ficaram muito felizes ao encontrá-las
A obsessão dos EUA em perguntar às pessoas sobre sua origem percebida, como AAPI, AA, Latino etc., vai além do estranho e é abertamente perigosa
Esse tipo de pergunta não deveria ser feito, e nunca deveria ser registrado junto com o nome
Felizmente, agora basta comprar isso de corretores de dados e deixar a Palantir fazer a segmentação, então ficou ainda mais fácil para eles
Acho que dizer que a privacidade diferencial torna os trade-offs explícitos é, na verdade, o oposto
Técnicas como privacidade diferencial, exceto para a pequena minoria de especialistas que lida com isso como quem respira, acabam escondendo o fato de que existe um trade-off
Não sei o suficiente para defender essa decisão, mas, se esse trade-off realmente existe, parece que quando o acesso a essas técnicas deixa de estar disponível até pessoas que não são estatísticas passam a encarar esse trade-off
Se dados sobre o público são perigosos a ponto de os resultados precisarem ser mascarados, talvez sejam dados que nem deveriam ser coletados em primeiro lugar
As pessoas subestimam de forma consistente a quantidade de informação que vaza, então não conseguem avaliar bem esse trade-off
Por isso, faz sentido impor um método que garanta que só uma quantidade segura de informação possa vazar
Em alguns casos pode ser melhor não compartilhar nem coletar os dados, mas esses dados têm um valor claro, então a quantidade ótima para armazenar e divulgar não é zero
Ao terceirizar a responsabilidade pelo pensamento estatístico, cria-se uma estranha sensação de poder em que uma pessoa decide os trade-offs antes, sem que as pessoas ao redor precisem entendê-los de fato
Se não fosse possível trocar nem coletar informações de identificação pessoal em nenhum contexto, como a sociedade funcionaria?
Anonimização e segurança são centrais, e viabilizam muitas funções importantes
Como alguém receberia correspondência em um mundo em que nunca se pode fornecer nem coletar informações potencialmente perigosas?