1 pontos por GN⁺ 3 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Injeção de ruído, usada para criar estatísticas públicas a partir de conjuntos de dados confidenciais, é uma ferramenta de prevenção de divulgação que oculta dados pessoais do material original enquanto mantém a utilidade estatística
  • Uma ordem do Departamento de Comércio dos EUA proíbe a injeção de ruído em todos os produtos estatísticos do Census Bureau e do Bureau of Economic Analysis, mirando diretamente a privacidade diferencial
  • O Census Bureau usou principalmente troca de registros nas pesquisas censitárias decenais de 1990 a 2010, mas, depois que ficou claro como era fácil reconstruir registros individuais a partir de estatísticas públicas, adotou a privacidade diferencial no Censo de 2020
  • A privacidade diferencial combina limitação de contribuição com adição de ruído cuidadosamente calibrado para oferecer maior utilidade com um nível de privacidade semelhante
  • Sem o ruído, futuras divulgações estatísticas podem se tornar muito menos úteis do que as do passado ou dados extremamente inseguros

Contexto

  • Produtos estatísticos são vários números divulgados a partir de conjuntos de dados confidenciais, e, quando esses conjuntos contêm informações sigilosas, os números publicados não devem revelar essas informações
  • O Censo dos EUA é um exemplo representativo: as estatísticas são públicas, mas o conteúdo de cada formulário preenchido por residentes dos EUA deve permanecer confidencial
  • Na área de estatística, as técnicas para publicar estatísticas úteis enquanto se protege a privacidade dos dados originais são chamadas de prevenção de divulgação
  • Entre essas técnicas estão a supressão, que remove dados que não atingem certos critérios, a generalização, que torna atributos menos precisos, e a amostragem, que remove aleatoriamente alguns registros
  • As técnicas de prevenção de divulgação também incluem swapping, que troca aleatoriamente atributos entre registros diferentes, limitação de contribuição, que restringe o impacto máximo de uma única pessoa, e adição de ruído, que soma valores aleatórios às estatísticas
  • Privacidade diferencial e o Censo de 2020

    • Ao combinar algumas dessas técnicas, é possível alcançar privacidade diferencial, amplamente considerada entre cientistas como o padrão-ouro da proteção de privacidade
    • A privacidade diferencial normalmente depende da combinação entre limitação de contribuição e adição de ruído cuidadosamente calibrada
    • O Census Bureau usou principalmente swapping nos censos decenais de 1990 a 2010
    • Depois, reconheceu que o swapping era muito inseguro e que era fácil reconstruir registros individuais usando apenas estatísticas públicas
    • Como o órgão é legalmente obrigado por lei federal a manter esses registros confidenciais, testou algumas alternativas e adotou a privacidade diferencial no Censo de 2020 por ter sido a abordagem que melhor preservou a utilidade das estatísticas ao mesmo tempo em que bloqueava o ataque
  • Queda de utilidade e reação contrária

    • A privacidade diferencial foi escolhida não por elegância matemática, mas porque, entre várias opções para mitigar o ataque, era a que mais preservava a utilidade dos dados
    • Os parâmetros exatos de privacidade também não foram escolhidos por oferecerem garantias formais especialmente fortes, mas para extrair o máximo de utilidade dos dados enquanto se alcançava um nível aceitável de proteção de privacidade
    • Dizer que ela preservava mais utilidade sob as novas restrições de privacidade descobertas não significava preservar a mesma utilidade do Censo de 2010
    • Os números ficaram menos precisos, e a imprecisão ficou muito mais transparente, tornando-se difícil de ignorar
    • Demógrafos e cientistas sociais deixaram de poder ignorar que os dados com que trabalham contêm ruído, e isso exigiu uma grande mudança na forma de conceituar e lidar com esses dados
    • Pessoas que de fato usavam dados do Censo para reconstruir registros individuais deixaram de poder fazer isso, e demógrafos reconheceram que isso era uma prática comum
    • Também era um segredo aberto que operadores políticos faziam esse tipo de reconstrução como parte de esforços de gerrymandering

Conteúdo da ordem

  • O governo decidiu que a injeção de ruído não é mais uma técnica aceitável de prevenção de divulgação
  • A ordem mira explicitamente a privacidade diferencial, mas parece também afetar outras técnicas que envolvem aleatoriedade
  • O texto da ordem afirma que a generalização deve sempre ser priorizada e que a supressão só deve ser usada como “último recurso”
  • Não está claro por que a ordem é tão específica
  • A ordem afirma com cautela que “não deve ser interpretada como conflitante com a Constituição, leis, regulamentos ou outras disposições legais”, e as obrigações de confidencialidade em torno desses produtos estatísticos continuam valendo

Impacto real

  • As consequências podem ser graves para a utilidade, para a privacidade, ou para ambas
  • Futuras divulgações estatísticas podem ser menos úteis do que publicações anteriores ou inseguras a ponto de parecer inacreditável
  • Remover uma ferramenta útil da caixa de ferramentas de prevenção de divulgação sempre torna mais dolorosa a troca entre privacidade e utilidade
  • O objetivo dessa área de pesquisa é entender e quantificar melhor os riscos à privacidade e desenvolver ferramentas melhores para mitigá-los preservando a utilidade
  • O papel da privacidade diferencial

    • Na divulgação estatística, a privacidade diferencial é a melhor ferramenta disponível hoje
    • Ela oferece uma forma de quantificar essa troca com mais precisão e extrai mais utilidade dos dados do que técnicas concorrentes em níveis semelhantes de privacidade
    • Remover a privacidade diferencial deixa apenas técnicas com menor utilidade no mesmo nível de privacidade, ou pior privacidade com a mesma utilidade
    • Técnicas concorrentes também dependem de adição de ruído
  • Outras técnicas também usam aleatoriedade

    • O método Cell Key, usado por outros órgãos estatísticos, adiciona ruído às estatísticas
    • O swapping usado pelo Census de 1990 a 2010 também injeta aleatoriedade no processo
    • A amostragem é amplamente usada em todo o trabalho estatístico
    • A imputação) também, tecnicamente, adiciona ruído aos dados
  • Limites da generalização e da supressão

    • Generalização e supressão são ferramentas muito grosseiras
    • Elas só funcionam quando as estatísticas já são muito agregadas e quando a quantidade de estatísticas divulgadas é pequena
    • Em produtos de dados complexos como o Censo dos EUA, com muitas estatísticas sobre grupos pequenos, generalização e supressão ou destroem toda a utilidade dos dados ou se tornam extremamente vulneráveis a ataques de privacidade
    • A destruição de utilidade é especialmente forte para grupos minoritários
  • Por que o ruído dificulta ataques

    • Ataques de privacidade contra divulgações estatísticas se parecem com resolver um sistema de equações
    • Esse trabalho fica muito mais fácil quando se sabe com certeza que todas as estatísticas são perfeitamente exatas
    • O ruído obriga o atacante a calcular probabilidades, quantificar incerteza e considerar cuidadosamente a linha de base
    • A aleatoriedade é útil para prevenção de divulgação mesmo sem garantias formais e torna os ataques muito mais difíceis
    • Sem aleatoriedade, os ataques se tornam triviais

Por que isso está acontecendo

  • A motivação é desconhecida
  • Não se sabe se o objetivo é forçar o Censo dos EUA a divulgar estatísticas que viabilizem reidentificação real para ajudar futuros esforços de gerrymandering
  • Por outro lado, também não se sabe se o objetivo é impedir a divulgação de dados demográficos úteis para que pesquisadores não consigam mostrar desigualdades injustas na população
  • A navalha de Hanlon oferece uma interpretação alternativa
  • Existe uma troca fundamental entre privacidade e utilidade na divulgação de dados estatísticos, e essa troca é um problema incômodo
  • A situação seria muito mais fácil se divulgar muitas estatísticas não implicasse automaticamente alto risco de privacidade
  • A privacidade diferencial explicita essa troca e, por isso, torna impossível ignorá-la
  • Banir a privacidade diferencial pode ser uma forma de fingir que o problema não existe e torcer para que ele desapareça

1 comentários

 
GN⁺ 3 시간 전
Comentários do Hacker News
  • Trabalhei como recenseador no último censo, e a confiança da comunidade já era baixa, embora também tenha tido muitos encontros interessantes
    Eu coletava dados bastante invasivos com um rosto amigável, mas acreditava sinceramente que esses dados seriam usados e administrados com responsabilidade
    Agora que o firewall que impedia a instrumentalização e monetização de dados governamentais sensíveis ruiu, sinto pena de quem vai bater de porta em porta em 2030, e mais ainda de quem voluntariamente fornecer informações que possam prejudicá-los
    Também acho curioso o comentário de que “o censo caro é só para contar cabeças”. Os dados coletados eram uma linha de base importante para o entendimento comum, e isso não fará bem para a qualidade deles no futuro
    Para referência, fui designado principalmente para domicílios sem resposta, então naturalmente parecia que as pessoas da minha região odiavam o governo, ignoravam panfletos estranhamente ameaçadores ou tinham se mudado recentemente e não conheciam quem morava ali durante o período da pesquisa

    • Isso vale até só para os produtos de dados do censo, mas os dados demográficos são, na prática, a base de extrapolação de praticamente toda pesquisa por questionário
      Desde pesquisas nacionais de opinião com dezenas de milhares de respondentes até pequenas pesquisas comunitárias, tudo depende disso
      Os resultados do censo, com a participação mais diversa possível, trazem recompensas quase infinitas para os EUA e beneficiam desde jornais nacionais até condados rurais
      Se as menores comunidades perderem até a confiança residual que ainda têm na privacidade do censo, serão elas que mais perderão em todos esses aspectos
    • Fiz um trabalho parecido, e isso resume bem o sentimento. Reconstruir essa confiança é realmente triste e difícil
      E também é desanimador ver as pessoas continuarem sendo atraídas por um partido que diz com orgulho que quer abusar desses dados
    • Acho que a queda de verdade começou depois de Edward Snowden, quando vieram à tona as revelações sobre a NSA
      Isso alimentou fortemente a desconfiança no governo, e já era difícil fazer as pessoas responderem pesquisas
      Dá para entender por que uma pessoa comum não acreditaria que o Census Bureau realmente manteria seus dados seguros
      Não importa o que digam a lei ou a Constituição: se você trabalha para algum órgão, logo parece ser apenas “o governo”. As taxas de resposta continuam caindo, e agora o presidente ataca até as estatísticas econômicas
      Sendo cínico, parece que vão continuar reduzindo os órgãos estatísticos e tornando as estatísticas cada vez menos úteis. Essa mudança de política também aponta nessa direção, e no fim vão tentar passar isso para o setor privado
      Mas o setor privado não consegue fazer o que o governo faz em campo
    • Um país faz um censo para entender com bastante detalhe em que situação estão as pessoas que o compõem
      É preciso ter informação precisa para planejar melhorias e tornar a vida de todos melhor
      A atitude de que “é só contar cabeças” revela de forma interessante o modo de pensar de muita gente hoje
      Parece que não querem melhorar a vida, ou nem conseguem imaginar como fazer isso. É realmente triste
  • Na convenção estadual do Partido Republicano do Texas desta semana, sugeriram uma emenda para incluir no rascunho da plataforma uma posição contrária à privacidade diferencial
    Disseram, com um exemplo de alguém que teria participado do censo, que 1 pessoa em situação de rua debaixo de uma ponte poderia virar 5 por causa da privacidade diferencial, então isso seria absurdamente ridículo pelo senso comum
    Não sei se passou, mas esse é o tipo de pressão de base que empurra esse tipo de coisa

    • Como você sabe que isso é de base?
  • Acho isso bem triste. Idealmente, um país deveria conseguir enxergar a composição das pessoas que existem hoje, para que possamos tomar boas decisões sobre a organização que administramos juntos
    Danificar deliberadamente a infraestrutura de coleta de dados me parece um erro do qual vamos nos arrepender depois
    Acho que boa parte do sucesso dos EUA veio de boas instituições para lidar com dados detalhados. Isso permitia ajustar políticas aos resultados com mais rapidez
    Entendo por que as pessoas querem reduzir toda capacidade estatal. Elas sentem que o governo está cheio de adversários e que essa capacidade será usada contra elas
    Mas, quanto mais a força relativa diminui, menos capacidade existe para vencer essa inércia; o governo fica menos competente e, no fim, a vida começa a piorar
    Não é necessário ter dados no nível de cada domicílio de imediato, mas pode haver exceções, como ao posicionar blocos censitários nos distritos eleitorais adequados. Ainda assim, acima de certo nível de agregação, devemos usar a melhor informação possível

    • Quebrar a infraestrutura de propósito é um tema recorrente deste governo
    • Isso não enfraquece o poder do governo
      Só torna o governo mais burro, de modo que depois, mesmo tentando fazer a coisa certa, ele não terá as informações necessárias para tomar decisões eficazes
    • Tenho mais interesse na ideia de dar os detalhes aos estados e deixar que eles administrem os programas
      O governo federal poderia ficar só com os dados agregados
    • Passando disso, isso deixa de ser diferente de tornar possível um genocídio, como quando o governo dos EUA quebrou o sigilo do censo e enviou japoneses-americanos para campos de internamento com base em raça
      Não se trata de “toda” capacidade estatal; o Estado só deveria ter a capacidade mínima absoluta para executar o que é necessário
      Por exemplo, coletar informação racial não é absolutamente necessário, então não deveria ser feito
      Porque no futuro o governo pode estar cheio de adversários. Indo além, os maiores danos causados por agentes do Estado vieram de forma consistente não de malícia intencional, mas de tentativas de “ajudar”
    • Este artigo é sobre uma decisão de tornar o censo menos prejudicado
      Se você considera importante ter um censo preciso, na verdade deveria comemorar
  • O censo pressupõe um certo nível de confiança, faça-se o que for
    Confiança de que esses dados não serão identificados de modo a permitir fraude, golpes financeiros ou outros abusos
    Mas em NY os registros de compra e venda de imóveis são públicos, e um efeito colateral disso é que muitas empresas de hipoteca enviam correspondências se passando por cobranças
    A privacidade diferencial é absolutamente necessária, e o fato de cientistas sociais não conseguirem reconstruir dados em nível individual é um resultado intencional
    Para a maioria dos objetivos, uma descrição macro já basta; exigir mais do que isso equivale a pedir um Estado de vigilância

    • Sinceramente, isso me parece mais uma falha de execução e uma falha de projeto do sistema financeiro
      Na Alemanha, não é comum que hipotecas ou os bancos que as detêm sejam repassados como se fossem uma batata quente para outro otário, então uma carta dessas despertaria suspeita imediatamente
  • É proibido no conjunto de dados, e pode ser adicionado na etapa de análise. Dá para escolher o tipo de ruído desejado
    Não sei bem quais são as implicações políticas aqui, mas em algum nível é necessário ter os valores reais de referência, inclusive “esta pessoa/domicílio se recusou a responder”
    Ainda assim, divulgar os dados brutos parece dar um tiro no próprio pé do ponto de vista da segurança nacional, além de haver muitos outros motivos para não fazer isso

    • Não sei exatamente qual é a proposta, mas se o ruído for adicionado de forma independente para cada pessoa, dá para reduzi-lo comprando várias cópias e tirando a média
      Há muitas formas de fazer isso errado, e é por isso que tanta análise foi dedicada à privacidade diferencial
    • O ruído entra nos dados públicos, não nos dados privados
  • Em vez de a privacidade diferencial tornar esse conflito explícito e impossível de ignorar, talvez a ideia seja que um dos dois objetivos vale mais do que o outro e, portanto, não deve ser sacrificado

  • Fico surpreso com as reações de “tem que divulgar tudo” aqui, porque isso é um pensamento unidimensional no pior sentido
    O censo é apenas fazer perguntas
    Se você começa a divulgar dados sobre pessoas com vários atributos e a transformá-los em arma, as pessoas simplesmente vão mentir ou deixar de responder
    Aí o que sobra são dados piores do que não ter dado nenhum, porque as pessoas vão tentar agir com base nesses dados ruins

    • Dá para coletar os dados no começo, quando as pessoas não sabem ou não ligam, e depois transformá-los em arma
      Isso aconteceu pelo menos uma vez recentemente em outro país, então não acho que a preocupação seja exagerada
    • Quem transforma os dados em arma é justamente o governo dos EUA
      O exemplo mais óbvio é o fato de o Census Bureau ter feito listas de pessoas de origem japonesa durante a Segunda Guerra Mundial para uso no encarceramento
      Acho que hoje o verdadeiro impulso é criar listas para cassar o direito de voto das pessoas
    • A solução fácil é reduzir a resolução e o escopo dos dados ao nível absolutamente necessário
      O censo existe para fornecer informações para determinar representatividade. O resto é funcionalidade adicional
      Dá para ter dados no nível de condado ou distrito eleitoral, mas conforme a resolução aumenta, os dados devem ser removidos, de modo que no nível de bairro ou quarteirão reste apenas a contagem populacional
      Saber a raça, etnia e contexto socioeconômico dos moradores de um quarteirão só serve para discriminá-los
    • A verdadeira pergunta é por que as pessoas respondem a esse tipo de pergunta em primeiro lugar
      Eu espero o recenseador aparecer e digo apenas quantas pessoas moram na minha residência
      Isso é necessário para uma representação eleitoral adequada, e fora isso não é necessário em nada
    • Este governo não tem interesse algum em fatos
  • É difícil demais conciliar essas coisas
    Dizem que o Censo de 2020 adotou privacidade diferencial e que, se removerem esse único filtro, haverá “resultados terríveis” para a utilidade, para a privacidade, ou para ambas
    Mas eles fazem censo há centenas de anos e estava tudo bem, e só no último censo adicionaram esse elemento de privacidade
    Se remover um deles de repente cria uma situação terrível, isso parece estranho. Antes nem havia esse recurso de privacidade, então na verdade não estamos muito melhores do que há centenas de anos?
    Por isso parece um problema exagerado em termos emocionais

    • Por mais difícil que seja acreditar, ao longo dos últimos séculos aumentaram as técnicas matemáticas e a capacidade computacional, e tudo também foi digitalizado
      Ataques à privacidade que antes eram impossíveis por custo agora podem ser feitos por trocados
      Além disso, como foi apontado, as pessoas já usam dados do censo para manipulação de distritos eleitorais, então esses ataques são reais e já acontecem há muito tempo
    • Uma coisa importante que existe hoje e não existia há 100 anos é o computador
      No passado, dava para considerar que reconstruir registros individuais não era viável, pelo menos em larga escala. Hoje não dá mais para pensar assim
      Uma senha de 4 dígitos pode ter sido segura por centenas de anos, mas hoje, pelo mesmo motivo, é uma irresponsabilidade do ponto de vista da segurança
    • Essa preocupação, como a maioria das preocupações com privacidade, parece hipocondria hipotética exagerada até um certo momento, e então deixa de parecer
    • O avanço dos computadores e da ciência de dados/aprendizado de máquina explica quase tudo
      Muitas das técnicas usadas hoje para reidentificar dados exigem capacidade computacional que antes não estava disponível
      Mesmo quando seria possível, os recursos limitavam a escala. Digo isso como alguém formado em estatística
      E há também a conectividade. Internet, redes sociais, rastreamento na web e invasões aumentaram muito as fontes de dados para cruzamento
      Mesmo nas décadas de 1970 e 1980, o rastro documental dos americanos era dramaticamente menor do que é hoje
    • Como o artigo deixa claro, recursos de proteção de privacidade já existiam no censo desde 1990
      Só que os mecanismos anteriores não eram fortes e podiam ser quebrados, então foram substituídos por mecanismos mais robustos
      1990 foi a época em que os computadores pessoais se popularizaram e a capacidade de computação disponível para indivíduos explodiu, e foi a partir daí que se tornou possível extrair informações pessoais dos dados divulgados pelo censo
      Foi por isso que o problema surgiu. Não é um problema exagerado
  • Do ponto de vista de alguém de um determinado país europeu, não dá para saber que resposta no censo pode causar problemas
    “Qual é a sua religião?” pode parecer totalmente inofensivo, mas quando, nos anos 1940, um ocupante estrangeiro conseguiu vincular essa resposta a indivíduos, ela se tornou retrospectivamente uma resposta fatal

    • Se fosse um ocupante estrangeiro desses, ele não simplesmente exigiria os dados brutos sem modificação?
    • O censo dos EUA não pergunta sobre religião
      As perguntas de 2020 eram quantas pessoas moravam ou estavam hospedadas nesta casa/apartamento/casa móvel em 1º de abril, se havia pessoas adicionais omitidas, qual era o tipo de moradia, número de telefone, nome da pessoa 1, sexo, idade e data de nascimento, se era hispânico/latino/espanhol e raça
      Também não há nada de muito efetivo para impedir mentiras
    • Nos EUA, perguntar sobre religião no censo é contra a lei
      Ninguém deve ser obrigado a divulgar informações sobre crenças religiosas ou filiação a organização religiosa
      https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
    • A França costumava fazer listas demais. Gostava de listas, e achava listas uma boa ideia
      Também fez listas de judeus, porque poderiam ser úteis algum dia para alguma coisa, e os alemães ficaram muito felizes ao encontrá-las
      A obsessão dos EUA em perguntar às pessoas sobre sua origem percebida, como AAPI, AA, Latino etc., vai além do estranho e é abertamente perigosa
      Esse tipo de pergunta não deveria ser feito, e nunca deveria ser registrado junto com o nome
      Felizmente, agora basta comprar isso de corretores de dados e deixar a Palantir fazer a segmentação, então ficou ainda mais fácil para eles
    • “Qual é a sua religião?” simplesmente não faz o menor sentido em um censo, na minha opinião
  • Acho que dizer que a privacidade diferencial torna os trade-offs explícitos é, na verdade, o oposto
    Técnicas como privacidade diferencial, exceto para a pequena minoria de especialistas que lida com isso como quem respira, acabam escondendo o fato de que existe um trade-off
    Não sei o suficiente para defender essa decisão, mas, se esse trade-off realmente existe, parece que quando o acesso a essas técnicas deixa de estar disponível até pessoas que não são estatísticas passam a encarar esse trade-off
    Se dados sobre o público são perigosos a ponto de os resultados precisarem ser mascarados, talvez sejam dados que nem deveriam ser coletados em primeiro lugar

    • Dados privados das pessoas são divulgados regularmente sem intenção. Históricos de visualização da Netflix e prontuários médicos são exemplos clássicos
      As pessoas subestimam de forma consistente a quantidade de informação que vaza, então não conseguem avaliar bem esse trade-off
      Por isso, faz sentido impor um método que garanta que só uma quantidade segura de informação possa vazar
      Em alguns casos pode ser melhor não compartilhar nem coletar os dados, mas esses dados têm um valor claro, então a quantidade ótima para armazenar e divulgar não é zero
    • Pessoalmente, acho que um dos grandes motivos de a ciência de dados, como função organizacional ampla, ter perdido influência nas empresas de tecnologia foi a tendência de tratar a equipe de ciência de dados como guardiã dos dados
      Ao terceirizar a responsabilidade pelo pensamento estatístico, cria-se uma estranha sensação de poder em que uma pessoa decide os trade-offs antes, sem que as pessoas ao redor precisem entendê-los de fato
    • Seguindo essa lógica, ninguém jamais deveria coletar endereços por motivo algum
      Se não fosse possível trocar nem coletar informações de identificação pessoal em nenhum contexto, como a sociedade funcionaria?
      Anonimização e segurança são centrais, e viabilizam muitas funções importantes
      Como alguém receberia correspondência em um mundo em que nunca se pode fornecer nem coletar informações potencialmente perigosas?