1 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • auto-identity-remove é uma ferramenta que pesquisa sites de corretores de dados com nome e informações de localização e envia automaticamente formulários de opt-out, ajudando a remover informações pessoais de mais de 500 sites de busca de pessoas e bases de dados de corretores de dados todos os meses
  • O fluxo de execução é composto por pesquisa por corretor, detecção de listas de perfis específicos, envio do formulário de opt-out, resolução de CAPTCHA quando necessário, ignorar itens concluídos recentemente, notificação de resultados e abertura no navegador dos sites que exigem processamento manual
  • O rastreamento de estado salva no state.json o último momento de sucesso e o histórico de execução, e o ciclo padrão de reverificação é de 90 dias, para não reenviar opt-outs já concluídos a cada execução
  • Formulários com CAPTCHA podem ser processados via CapSolver, com custo aproximado de $0.001 por resolução; se não estiver configurado, o site correspondente vai para a lista de processamento manual
  • Os requisitos são Node.js 18+, macOS, Linux ou Windows, e os navegadores do Playwright; o setup.js orienta sobre inserção de dados pessoais, aliases, chave do CapSolver, conta descartável, notificações e registro de agendamento mensal
  • A tarefa mensal é registrada para executar todo dia 1 às 9h da manhã e, dependendo da plataforma, usa detecção automática de launchd, systemd, crontab ou schtasks
  • Também há suporte para execução com Docker, usando a imagem oficial do Playwright com Chromium e dependências do sistema incluídas; para manter o histórico de conclusão entre contêineres, é necessário montar o state.json
  • As notificações oferecem suporte ao resumo de resultados via iMessage no macOS e, em ambientes headless ou Docker, é possível fazer POST de {"text": "<summary>"} para ntfy.sh, Slack incoming webhook ou Discord webhook com notify.webhook
  • O suporte a corretores é dividido em duas etapas e os 42 corretores explícitos listados em STATUS.md são mapeados com seletores individuais, enquanto cerca de 490 são tratados por uma abordagem heurística que tenta, em sequência, botão Do Not Sell, OneTrust, TrustArc, Osano, formulários genéricos e busca por links DSAR
  • ✅ Submitted significa apenas que o corretor recebeu o formulário, não que a exclusão esteja garantida; node watcher.js --verify pesquisa novamente os itens registrados como sucesso e os classifica em VERIFIED CLEAR, STILL LISTED e UNVERIFIABLE
  • Entre os principais alvos com processamento automático suportado estão Spokeo, WhitePages, FastPeopleSearch, TruePeopleSearch, BeenVerified, Radaris, Acxiom, LexisNexis, ZoomInfo e Clearbit; Google Results About You e Google Outdated Content são abertos para processamento manual
  • Usuários fora dos EUA têm suporte a código do país, Province/Region, Postal code, armazenamento do número de telefone original e preenchimento de campos de seleção de país, mas corretores somente dos EUA como Spokeo, WhitePages e FastPeopleSearch são ignorados automaticamente se o país configurado não for US
  • --dry-run apenas navega pelos sites e preenche os formulários, sem enviar nada, e o recurso experimental --pollute N envia registros falsos para alguns corretores marcados com acceptsBogus: true, mas vem desativado por padrão porque o texto explicita possível violação de termos e risco legal
  • config.json, que contém informações pessoais, o histórico de opt-out em state.json e os logs de execução estão no gitignore, e a licença do repositório é MIT

1 comentários

 
GN⁺ 1 시간 전
Comentários do Hacker News
  • Cansado de ligações e mensagens de spam, criei um script que automatiza mensalmente o processo de opt-out em mais de 500 corretores de dados
    A parte em que preciso de ajuda é que a abordagem heurística deixa muita coisa passar. Muitos sites têm fluxos próprios, então quatro estratégias genéricas não dão conta
    Preciso de alguém para validar quais sites genéricos realmente funcionam e quais falham silenciosamente, adicionar definições explícitas de brokers para os sites mais importantes, testar fora do macOS e lidar com fluxos de verificação por e-mail
    Repo: https://github.com/stephenlthorn/auto-identity-remove
    O repositório não contém dados pessoais; o script de configuração coleta as informações localmente e as deixa no gitignore
    • Fico curioso para saber se a abordagem atual funciona em muitos sites. O repositório parece claramente ter sido feito com vibe coding ou, no mínimo, com bastante uso de IA, então é difícil acompanhar o que já está pronto e o que ainda falta para funcionar de verdade
      Para a verificação por e-mail, talvez dê para improvisar avisando “clique no link de confirmação em um e-mail deste remetente”. Ler uma caixa de entrada real de forma confiável em vários provedores pode ser difícil, porque isso praticamente exigiria um cliente de e-mail
      E talvez eu esteja enganado, mas este próprio comentário também parece ter sido gerado por IA. Se for o caso, isso viola as diretrizes do site

      Don't post generated comments or AI-edited comments. HN is for conversation between humans.
      https://news.ycombinator.com/newsguidelines.html#generated

  • Testei no Canadá e ele recomendou assinar outros serviços como o Spokeo, pediu acesso ao e-mail por meio do app Apple Mail, que eu nem uso, houve vários 404 e muitos sites exigiram intervenção manual
    A ideia é boa, mas ainda precisa de muitos ajustes para ser útil de forma geral. CEPs alfanuméricos e endereços fora dos EUA parecem quebrar bastante da automação
    • É bem surpreendente presumir que as pessoas usam serviços da Apple por padrão
  • Por volta de 2011, a Yellow Pages ainda entregava listas telefônicas de papel para todos os endereços do estado. No dia seguinte, nossa cidade enviava um caminhão de reciclagem temporário só para recolher tudo, e todo mundo jogava fora
    Conversando com colegas, vimos que o formulário de opt-out só exigia o endereço. Pensei em pegar todos os endereços conhecidos do país e automatizar envios ao longo de alguns meses para remover todos, mas isso nunca foi adiante; ainda assim, eu ria imaginando em que percentual de opt-outs os desenvolvedores da Yellow Pages teriam feito uma reunião de emergência
    • Mais ou menos na mesma época, meu irmão alugou alguns cômodos da casa dele para pessoas que trabalhavam entregando listas telefônicas. Era em outro país, mas parece que a Yellow Pages estava em todo lugar
      Os entregadores não estavam dando conta e acabaram começando a empilhar e queimar os montes de listas. Como ninguém sentia falta delas, demorou bastante até serem pegos
    • O pessoal da Yellow Pages provavelmente teria fingido que não recebeu os opt-outs, como metade das empresas de mala direta e dos spammers faz
      Já me esforcei bastante para impedir que a Uline enviasse catálogos gigantes de papel para uma caixa postal duas ou três vezes por ano. Existe um formulário, mas eles simplesmente ignoram o pedido
      https://www.uline.com/CustomerService/ULINE_FAQ_Ans?FAQ_ID=4...
    • Ao discutir a privacidade de dados do projeto com a Australia Post, não resisti a brincar: “Vocês não distribuem rotineiramente dados pessoais de milhões de pessoas todos os anos, deixando informações na porta de casa para qualquer um ver?”
  • O que essas empresas fazem não melhora a sociedade de verdade, então uma sociedade saudável deveria conseguir tornar isso ilegal. Mas não fazemos isso, então estamos onde estamos
    • Dá perfeitamente para tornar isso ilegal. Sob o GDPR, é muito mais difícil fazer legalmente a coleta e venda de dados pessoais em escala
      Isso não quer dizer que ainda não aconteça, mas dá base jurídica para reagir. noyb.eu / Max Schrems e outros estão fazendo um trabalho excelente e muito importante nessa frente
  • “Resolve CAPTCHA com CapSolver (baseado em IA, cerca de $0.001 por solução)”, então minha suspeita estava certa. Achei que só eu ainda me incomodava com CAPTCHAs antigos assim
    • Depende do tipo de CAPTCHA, mas existe um motivo para Apple, Cloudflare e Google estarem migrando para atestado remoto (remote attestation) como prova de humanidade
      O reCAPTCHA v3 Enterprise e o MtCaptcha custam 3 vezes mais, $3 por 1000 soluções. Então parecem ser CAPTCHAs mais interessantes para mirar
    • Dá vontade de comprar um serviço pago de resolução de CAPTCHA para deixar a vida mais fácil
    • Parece que também existe uma extensão de navegador: https://www.capsolver.com/products/browser-extension
  • Parece que a única coisa presa ao macOS é o launchd, e essa informação seria útil na documentação. Não sei se dá para simplesmente rodar pelo CLI
    Suporte a systemd parece fácil. No Windows, não sei bem o que se usa
    • Criar serviços no Windows é um pouco mais complicado. O Windows usa uma API de verdade para serviços, e não algo baseado só em executar processos e fazer scripts
      Ainda assim, com o Agendador de Tarefas dá para programar execuções mensais e várias outras coisas
    • É só usar sc.exe ou tasksched
  • Para mim, o mais interessante é o rastreamento de estado e um caminho manual de fallback. Uma ferramenta dessas deveria ter obrigatoriamente um modo de simulação/auditoria mostrando quais campos serão enviados para quais brokers antes do envio real
    O modelo de ameaça é meio ambíguo: a ferramenta pode reduzir a exposição, mas um seletor quebrado também pode vazar dados pessoais para o lugar errado
  • Fico pensando se isso não acaba sendo, na prática, uma ótima automação para enviar meus dados a 500 corretores de dados
    • Não cheguei a verificar quais dados precisam ser fornecidos na etapa 3, mas se a ferramenta preenche e envia automaticamente formulários de opt-out, imagino que precise de mais do que nome e endereço
      Uma solução muito melhor seria aprovar alguma lei estilo GDPR nos EUA
  • Pelo menos na Califórnia, o formulário DROP deve ficar disponível online neste outono
    • Para quem trabalha no setor, 1º de agosto está pendurado como uma espada de Dâmocles sobre cerca de 500 corretores de dados registrados na Califórnia
      Para consumidores, ele já está disponível. Você pode se cadastrar junto com seus 275 mil vizinhos
  • Interessante. Fico curioso se alguém usou isso por algum tempo e se realmente houve redução de spam