1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Em 4 de junho de 2026, a diretriz DAO 216-26 do Departamento de Comércio dos EUA pode fazer a forma como o BEA e o U.S. Census Bureau protegem estatísticas públicas voltar a técnicas dos anos 1970, abalando ao mesmo tempo a utilidade de dados públicos detalhados e a proteção dos respondentes
  • A diretriz proíbe técnicas modernas de limitação de divulgação, como privacidade diferencial (differential privacy) e injeção de ruído, permitindo apenas coarsening, como arredondamento, agregação e uso de faixas, além de suppression como último recurso
  • O exemplo das cervejarias no County Business Patterns mostra que o simples coarsening pode tornar estatísticas por setor e região inúteis, ou permitir reconstruir valores de empresas individuais com álgebra de nível ensino médio quando várias agregações são combinadas
  • O Census Act tipifica como crime a divulgação que identifique dados fornecidos por uma pessoa ou empresa específica, e a taxa de resposta ao censo e a confiança nas estatísticas federais dependem fortemente da garantia de confidencialidade
  • Independentemente das divergências dentro da comunidade científica sobre técnicas de proteção de privacidade, deve ser rejeitada a abordagem em que atores políticos, e não especialistas das agências estatísticas federais, proíbem unilateralmente a escolha de métodos

Como a DAO 216-26 mudou a proteção de confidencialidade das estatísticas públicas

  • Em 4 de junho de 2026, o secretário de Comércio dos EUA emitiu a DAO 216-26, restringindo as técnicas de proteção de confidencialidade que podem ser usadas em todas as publicações do BEA e do U.S. Census Bureau
  • A diretriz faz os meios de proteção das estatísticas públicas voltarem a técnicas do início dos anos 1970, revertendo mais de meio século de avanços metodológicos e de proteção dos titulares dos dados
  • Graças ao avanço das tecnologias de proteção de confidencialidade, o Census Bureau conseguiu compartilhar mais dados em níveis mais granulares
  • Como resultado, a utilidade das estatísticas pode diminuir, a quantidade de estatísticas que podem ser divulgadas pode cair, ou o nível de proteção pode se enfraquecer

Contexto político e conflito jurídico

  • Por trás da DAO 216-26, interesses políticos pesam mais que a validade científica
  • A diretriz é criticada por contornar procedimentos administrativos legalmente necessários
  • Ela cumpre promessas feitas pelos arquitetos do Project 2025, da Heritage Foundation, e reflete a retórica e os equívocos do Center for Renewing America (CRA), fundado pelo diretor do OMB, Russell Vought
  • O texto explicativo do CRA sobre privacidade diferencial no 2020 Census afirma que “mesmo que a pergunta sobre cidadania seja adicionada ao Census, enquanto differential privacy for usada será impossível verificar o status de uma pessoa”
  • Porém, esse mascaramento de dados sobre características pessoais é uma exigência do Census Act, isto é, do 13 U.S. Code Section 9
    • Esse dispositivo tipifica como crime a divulgação que permita identificar dados fornecidos por uma pessoa específica
    • A confidencialidade também é importante para levar as pessoas a responderem ao censo

Técnicas proibidas e técnicas permitidas

  • A DAO 216-26 proíbe não apenas a privacidade diferencial, mas também técnicas modernas de prevenção de divulgação e até algumas técnicas mais antigas
  • A principal técnica permitida se limita ao “coarsening”
    • É uma forma de reduzir o nível de detalhe ou de especificidade das estatísticas públicas
    • Arredondamento, agregação, agrupamento e uso de faixas se enquadram aqui
  • “Suppression” é uma forma de apagar explicitamente determinados valores, mas só é permitido como último recurso
  • “Noise infusion” é um método que altera um conjunto de dados adicionando valores aleatórios ou ruído, e está proibido
  • A injeção de ruído foi criada para responder à crescente demanda por dados granulares dentro de um regime legal de confidencialidade que proíbe a divulgação de dados reidentificáveis

Alcance sobre produtos de dados existentes

  • Coarsening e suppression em geral eram suficientes para estatísticas agregadas em nível nacional, como os Principal Federal Economic Indicators
  • Mas essas técnicas não se ajustam bem a dados de empresas e demografia em unidades geográficas e setoriais finas
  • A proibição da injeção de ruído tem o efeito de banir a principal técnica de prevenção de divulgação em dezenas de publicações de dados dos últimos 30 anos
    • Input noise infusion é usada desde 2002 nos Quarterly Workforce Indicators e também estava planejada para estatísticas do BEA
    • Swapping é usado em publicações do decennial census desde 1990
    • Differential privacy é usada desde 2008 para compartilhar dados de padrões de deslocamento no OnTheMap e em publicações baseadas no 2020 Census
    • Até antes da diretriz recente, differential privacy também estava planejada para o 2030 Census
  • Consta que o Working Paper WP2026-9 do BEA foi removido pelo Departamento de Comércio

O problema mostrado pelo exemplo do County Business Patterns

  • A DAO 216-26 é difícil de conciliar com a dupla obrigação do Census Bureau de oferecer confidencialidade e adequação ao uso ao mesmo tempo
  • O exemplo de Nathan Goldschlag sobre o County Business Patterns mostra a tensão que surge ao dividir estatísticas de atividade empresarial por setor e geografia
    • Se em um condado pequeno houver apenas uma cervejaria e o número exato de funcionários for divulgado, as informações de uma empresa ficam expostas diretamente
    • Se houver duas cervejarias, um proprietário pode subtrair os funcionários de sua própria empresa do total de funcionários e descobrir o número de funcionários da concorrente
    • Mesmo havendo três ou mais, se a soma dos funcionários não for divulgada, um potencial empreendedor que esteja avaliando entrar no mercado terá dificuldade para obter as informações necessárias
  • Nesse exemplo, o coarsening torna as estatísticas públicas inúteis

Cenário em que até o coarsening permite reconstrução

  • Um exemplo adicional mostra que o coarsening também pode fracassar na preservação da confidencialidade
  • Em um condado hipotético há duas cidades, North Bend e South Bend, cada uma com uma cervejaria
    • Em North Bend há uma empresa de envase móvel
    • Em South Bend há uma empresa de envase fixa
    • Há um total de 4 negócios relacionados a cerveja
    • A cervejaria de North Bend e a empresa de envase de South Bend são empresas de capital aberto
  • O CBP divulga cinco estatísticas
    • O número total de funcionários de negócios relacionados a cerveja em North Bend
    • O número total de funcionários de negócios relacionados a cerveja em South Bend
    • O número total de funcionários do setor cervejeiro no condado
    • O número total de funcionários do setor de envase no condado
    • O número total de funcionários de empresas de capital aberto no condado
  • Nesse caso surgem 5 equações com 4 incógnitas, e apenas A, B, C e E já bastam para resolver por álgebra de ensino médio o número exato de funcionários de cada empresa
  • Mesmo que o coarsening por geografia, setor e forma de propriedade seja aplicado de boa-fé, se esses recortes interagirem mal entre si, todos os valores podem ser completamente reconstruídos
  • Noise infusion perturba esse conjunto de equações e impede a reconstrução exata

Limites práticos do retorno ao “tradstat”

  • O Departamento de Comércio afirma que a diretriz é um retorno às técnicas estatísticas tradicionais dos anos 1970, ou “tradstat”, e que isso é bom para os consumidores de dados
  • O FAQ do BEA afirma que essa atualização do método de limitação de divulgação protege os respondentes e “fornece ao público informações econômicas mais essenciais”
  • No entanto, o exemplo de Goldschlag mostra que o coarsening pode funcionar no sentido oposto
  • Por definição, o coarsening reduz o acesso a informações detalhadas
  • No exemplo em que três formas de coarsening interagem mal, sem injeção de ruído a confidencialidade pode ser quebrada com cálculos básicos
  • No censo populacional, métodos formais de injeção de ruído como differential privacy cumprem o papel de manter confidenciais características pessoais como status de cidadania

Por que a confidencialidade é importante nas estatísticas federais

  • O debate sobre o melhor método para proteger a confidencialidade dos dados dos respondentes continua até dentro da comunidade científica
  • Porém, a DAO 216-26 é caracterizada como uma medida impulsionada por interesses políticos, e não pela ciência
  • A diretriz pode colocar em risco a confiança pública no processo censitário
  • Servidores públicos tentarão cumprir a diretriz ao mesmo tempo em que obedecem às leis que exigem a proteção da confidencialidade dos respondentes
    • Podem produzir menos dados
    • Podem tornar os dados grosseiros demais para serem usados
    • Sob pressão política, podem acabar divulgando dados cujo mascaramento seja facilmente removido, como no exemplo das cervejarias
  • Qualquer escolha dificulta garantir a confidencialidade dos respondentes, e muitas empresas e pessoas podem deixar de responder
  • Isso pode ter consequências destrutivas para uma instituição que fornece os “dados da democracia”

Resposta necessária

  • Em vez de atores políticos se sobreporem aos especialistas estatísticos do governo, é necessário um investimento profundo nas agências estatísticas dos EUA
  • Deve-se garantir pessoal e apoio para que as agências possam aprimorar seus métodos com as melhores ferramentas
  • Independentemente da posição de cada um sobre técnicas específicas de reforço da privacidade, a abordagem anticientífica nas operações estatísticas federais deve ser rejeitada coletivamente
  • As ações propostas são as seguintes
    • Compartilhar o texto em redes e comunidades profissionais
    • Encontrar os contatos dos representantes da Câmara e transmitir preocupações ao representante no Congresso
    • Exigir a revogação da DAO, o cumprimento dos procedimentos administrativos adequados e que especialistas das agências estatísticas federais fiquem responsáveis por escolher métodos técnicos que equilibrem utilidade e confidencialidade
    • Para ajudar a preservar working papers e documentos do Census, é possível se voluntariar na declaração sobre differential privacy do Data Rescue Project ou usar o Save Page Now do Internet Archive
  • Páginas que explicam noise infusion e differential privacy já estão saindo do ar, por isso é necessário arquivar páginas metodológicas e documentos técnicos relacionados

1 comentários

 
GN⁺ 4 시간 전
Opiniões no Hacker News
  • A diretriz DAO-216-26, emitida em 4 de junho de 2026 pelo secretário de Comércio dos EUA, proíbe privacidade diferencial e várias técnicas modernas e antigas, limitando as técnicas de evasão de divulgação a “tornar os dados mais grosseiros”.
    Ela também proíbe a injeção de ruído, “um método de modificar um conjunto de dados adicionando valores aleatórios, isto é, ruído”, bloqueando uma técnica de proteção que foi central em dezenas de divulgações de dados nos últimos 30 anos.
    Servidores públicos, tentando cumprir ao mesmo tempo a lei que exige proteger a confidencialidade dos dados dos respondentes e essa ordem, podem acabar divulgando menos dados ou tornando-os tão grosseiros que fiquem inúteis. Sob pressão política, também podem divulgar dados facilmente reidentificáveis; a atual administração é maldita em um nível inacreditável.

    • Minha avaliação da atual administração dos EUA é tão baixa que, quando ela faz algo horrível porém sofisticado, meu viés pode virar um ponto cego.
      Ainda assim, o simples fato de eles terem analisado privacidade diferencial já é surpreendente; mais surpreendente ainda é terem analisado e concluído que ela deveria ser eliminada. Que lógica poderia haver nisso?
    • A atual administração é controlada por bilionários e interesses estrangeiros, e ambos querem que o governo dos EUA desmorone.
      Para os EUA voltarem a ser levados a sério, muita gente terá de ir para a prisão, ser enforcada ou deportada.
      Onde estão agora os covardes belicosos que viviam falando de armas e da Segunda Emenda? Eles continuarão gritando “liberdade” enquanto a casa pega fogo.
    • Não é maldição; é uma tentativa ativa, típica de fascistas autoritários, de consolidar o próprio poder.
      Mesmo assim, alguns se iludem achando que, se torcerem ainda mais pelo querido líder, a maré vai virar para eles também. Enxergam isso como um jogo esportivo em que é preciso torcer pelo time mesmo quando ele quebra as regras descaradamente.
    • Tornar os dados mais grosseiros não é tão elegante quanto privacidade diferencial, mas usar isso não cria uma “emergência de privacidade”; é apenas um censo um pouquinho menos preciso.
      Ninguém sabe que efeito essa diferença de precisão teria na economia real.
      Seria bom usar uma técnica mais elegante, e minha intuição é que essa política é ruim, mas não vejo aqui algo que chegue a uma “emergência”. Chamar assim soa exagerado.
  • A chamada para ação deste texto é entrar em contato com legisladores, mas falta justamente o link para encontrar os contatos. Dá para encontrar aqui: https://www.congress.gov/members/find-your-member

  • Qual será o objetivo político por trás dessa diretriz? Com certeza há algum propósito nada sutil, mas não sei qual é.

    • As pessoas atualmente no poder querem cada byte de dados sobre as pessoas que vivem neste país.
      A ideia é separar pessoas por critérios arbitrários e tratar esses grupos como quiserem. Dependendo da pessoa, isso pode significar encarceramento, deportação ou algo ainda pior.
  • Quando se lê o trecho “se essa ordem for seguida, serão destruídos os dados públicos do Departamento de Comércio dos quais dependem decisões importantes, como onde construir serviços necessários ao bem-estar de nossas comunidades”, fica claro que este não é um texto sobre privacidade.
    Scott soa como um cientista da computação levado a usar um tom exagerado por causa do ecossistema dos EUA.

    • Se não for possível anonimizar o suficiente para escapar de leis de proteção de dados pessoais ou outras leis de sigilo, o conjunto de dados não pode ser divulgado.
      Se os responsáveis pelos dados forem proibidos de usar as técnicas que empregam para anonimização, não conseguirão anonimizar o suficiente. Não é uma lógica difícil de acompanhar.
    • Este é um texto convidado de Cynthia Dwork. Não é o estilo de Aaronson; é um texto de Dwork.
  • Alguém consegue explicar por que a Heritage Foundation mirou essas técnicas estatísticas? Qual seria a motivação política?

    • Há um exemplo aqui: https://x.com/WadeMiller/status/1985183761957372286
    • É para dar mais poder às grandes empresas e escancarar as proteções estatísticas, facilitando 1) agitação e propaganda melhores, 2) o rastreamento de minorias de que não gostam, 3) o direcionamento eleitoral.
    • O Censo de 2020 teve vários problemas, e uma boa parte deles acabou dando aos democratas mais cadeiras na Câmara do que teriam originalmente.
      Além disso, os resultados do censo deveriam ter chegado à Casa Branca em dezembro de 2016, mas, por algum motivo, só chegaram em 21 de janeiro de 2017.
      Não sei se privacidade diferencial esteve diretamente envolvida, mas parece estar sendo criticada junto com outros problemas.
    • É provável que tenha relação com histórias como: “Os nazistas usaram censos regulares, declarações de imposto de renda e registros de polícias locais. Em países ocupados como Alemanha e Países Baixos, essas informações foram organizadas de forma sistemática. Em alguns casos, tecnologia da IBM — isto é, máquinas de cartões perfurados da Dehomag — foi usada para tabular e classificar dados censitários a fim de identificar indivíduos judeus.”
  • O texto apresenta duas formas de proteger a privacidade em conjuntos de dados e, em seguida, ataca a fraqueza teórica do método antigo com um cenário artificial para induzir a escolha de outra solução, supostamente mais nova.
    Mas a nova solução não é explicada em detalhes, além do nome. O que eu gostaria de saber é: 1) se já houve algum caso em que a generalização de fato falhou da forma descrita no texto e vazou informações; 2) como funciona a “outra” solução que deveríamos desejar; 3) qual é a diferença no nível de detalhe que era impossível quando era preciso generalizar os dados, mas passou a ser possível com a nova solução.

    • (1) “A Simulated Reconstruction and Reidentification Attack on the 2010 U.S. Census” https://arxiv.org/pdf/2312.11283
      (2) É um método que adiciona ruído gaussiano cuidadosamente calibrado. Nos últimos 6 anos, também descobriram formas de adicionar muito menos ruído gaussiano: “The 2020 Census Disclosure Avoidance System TopDown Algorithm” https://arxiv.org/abs/2204.08986
      (3) Isso é mais difícil de responder. O Census Bureau tinha como objetivo divulgar estatísticas no mesmo formato das décadas anteriores. A meta de 2020 era divulgar as mesmas estatísticas com a mesma margem de erro, e as evidências indicam que esse objetivo parece ter sido alcançado. “Evaluating Bias and Noise Induced by the U.S. Census Bureau's Privacy Protection Methods” http://arxiv.org/abs/2306.07521, “Evaluating the Impacts of Swapping on the US Decennial Census” http://arxiv.org/abs/2502.01320
  • Discussão anterior: https://news.ycombinator.com/item?id=48517377

  • Artigo relacionado: https://news.ycombinator.com/item?id=48517377
    É uma pena que isso tenha sido politizado. Estou trabalhando com privacidade diferencial para conformidade com o GDPR, e é uma tecnologia interessante.

    • Quando você diz que está trabalhando com privacidade diferencial, quer dizer trabalho jurídico?
  • Há um fato relacionado ao Congresso que descobri recentemente e de que gosto bastante.
    Licença parental em nível federal — ou seja, licença-paternidade e licença-maternidade — tem o apoio de cerca de 80% da população adulta dos EUA. Eleitores democratas e republicanos apoiam, independentemente da orientação política.
    Mas você pode se perguntar por que, sendo tão popular, ela não é uma obrigação federal. O grupo que não gosta disso são as empresas, e as empresas doam muito dinheiro a políticos. É mais barato doar para políticos contrários à licença parental do que pagar diretamente pelo custo da licença parental.
    Conto essa história com frequência porque ela lembra que há grupos que gastam muito tempo e dinheiro para fazer valer a própria vontade. Pode parecer intimidador, mas, se você ligar para o deputado do seu distrito, essa ligação entra na contagem. Eles querem saber com o que os eleitores se importam, então é só ligar e contar.

    • O que é particularmente chocante nas revelações recentes é como o Congresso se vende barato.
    • Pelas respostas que recebi ao escrever cartas aos meus representantes locais, eles parecem se importar muito mais com patrocinadores corporativos e a linha do partido do que com os eleitores.
    • Se você perguntar apenas se as pessoas são a favor ou contra uma obrigação federal de licença parental, a maioria vai apoiar; mas, se perguntar se mudariam seu voto por causa disso, parece o tipo de questão em que os apoiadores diriam que não é uma prioridade máxima e que não se importam o suficiente para agir.
      Os 20% contrários podem ser, por exemplo, donos de pequenas empresas. Se pequenas empresas não forem isentas, elas não conseguem arcar com o custo de pagar alguém em licença prolongada e também pagar um substituto; se pequenas empresas forem isentas, donos de grandes empresas odeiam qualquer coisa que dê uma vantagem relativa a empresas menores.
      Então, quando há de um lado algo que 80% querem, mas só 1% se importa, e do outro algo que 20% querem, mas 75% se importam, o segundo número é maior.
    • Se você já acha que o financiamento de campanhas ou a compra de políticos por empresas é ruim, nos EUA isso vai ficar exponencialmente pior.
      A Suprema Corte tomou recentemente uma decisão que permite que a oligarquia rica dê quantias ilimitadas a seus fantoches favoritos — digo, políticos[1].
      [1]: https://www.npr.org/2026/06/30/nx-s1-5827039/supreme-court-c...
    • Moradia gratuita, comida gratuita, saúde gratuita e renda gratuita também são extremamente populares entre a população adulta dos EUA.
      O problema é que essas coisas, na prática, não são “gratuitas”: alguém precisa pagar a conta.
      https://en.wikipedia.org/wiki/Tyranny_of_the_majority
  • Ligar para um parlamentar não terá exatamente efeito nenhum[1]
    Data centers também continuam sendo aprovados, embora as comunidades locais se oponham quase universalmente a eles e as externalidades negativas sejam muito mais reais e diretas
    A verdadeira crise está em um sistema político capturado
    Na Austrália dos anos 1990, um partido racista e supremacista branco chamado One Nation surgiu de uma combinação de acontecimentos estranhos, e Pauline Hanson, dona de uma loja de fish and chips, virou parlamentar. Quase 30 anos atrás, ela fez seu famoso primeiro discurso no Parlamento[2]
    Depois de vários escândalos, o One Nation desapareceu por um tempo, em parte porque a coalizão conservadora Liberal/National basicamente absorveu, no início dos anos 2000, uma plataforma racista que usava refugiados como bodes expiatórios. Mas, estranhamente, agora voltou. Só que esse não é o ponto principal
    A Austrália usa o voto preferencial, que nos EUA costuma ser chamado de voto por ordem de preferência. O eleitor pode numerar os candidatos diretamente ou seguir a ordem de preferências registrada pelo partido. Como muita gente escolhe a segunda opção, a distribuição das preferências é importante
    O One Nation adotou uma estratégia de distribuir preferências contra quem estava no cargo. Se a cadeira era dos Liberal, ia para o Labor; se fosse o contrário, então o inverso. Isso assustou o establishment político a ponto de os principais partidos, que eram adversários entre si, distribuírem preferências um para o outro acima do One Nation, e o One Nation não conseguiu cadeiras mesmo tendo mais de 10% dos votos
    O ponto central é que políticos e partidos demais veem seus cargos como se fossem propriedade própria. Nos EUA, as primárias também muitas vezes são tratadas como um procedimento formal para o candidato escolhido pelo partido, e a taxa de reeleição no Congresso ficou acima de 95% por décadas
    Curiosamente, o Partido Democrata está hoje em um estado de rebelião quase aberta, e nas últimas semanas vários titulares de longa data, com 10 a 30 anos de mandato, perderam espaço para desafiantes nas primárias
    Também há um fato interessante que fiquei sabendo esta semana. Faz cerca de 18 anos que a decisão Citizens United praticamente eliminou os limites de gastos eleitorais, e um terço de todo o dinheiro gasto desde então foi usado nas primárias deste ano. Na primária de Thomas Massie, mais de US$ 35 milhões foram gastos pelo lado adversário, tornando-a a primária mais cara da história dos EUA, e em outros lugares os valores também chegam a milhões. Estima-se que uma única cadeira do Senado pelo Maine terá gastos totais de US$ 400 milhões
    No fim, a única coisa que funciona é fazer os parlamentares terem medo de perder seus assentos confortáveis. Se você passou 30 anos sentado lá e não tem nada para mostrar, está na hora de sair
    [1]: https://act.represent.us/sign/problempoll-fba
    [2]: https://www.youtube.com/watch?v=p2ypTX9ntTQ

    • Como outro australiano, você já entrou em contato com seu parlamentar local?
      Eu também era cínico no começo, tipo “por que fazer isso?”, mas, quando realmente fiz, vi que estava errado e foi uma experiência bem boa
      Hoje acho que os parlamentares nem sempre estão em posição de chegar perto dos fatos. Então, se você entra em contato e transmite o que pensa, na verdade está dando a eles um grande presente
      Especialmente em questões estaduais e locais, isso pode ter um efeito bastante real. Em assuntos federais talvez menos, mas pelo menos há a satisfação de receber uma resposta de confirmação do chefe de gabinete ou de um assessor
    • Só implementar o voto por ordem de preferência já seria um grande avanço
      O bipartidarismo é uma falsa escolha binária, forçada de propósito, como pais que dizem ao filho para escolher entre brócolis e cenoura e fazem a criança acreditar que a decisão foi dela. Ambos os partidos são controlados pela classe investidora
    • Concordo. Pode ligar para seu representante
      Se ele ficar em cima do muro ou evitar se comprometer, você deve fazer o que puder para tirá-lo nas primárias. Todo “centrista” acabará vendendo você ao panóptico
    • Pergunte ao Tom S., da Califórnia, o que esse tipo de gasto garante
      Mais urgente é consertar o processo eleitoral quebrado, como o da Califórnia, onde agora leva mais de 30 dias para “apurar” os votos