3 pontos por GN⁺ 2025-11-07 | 1 comentários | Compartilhar no WhatsApp
  • Um grande conjunto de dados contendo 1.957.470.000 endereços de e-mail únicos e 1,3 bilhão de senhas foi divulgado e adicionado recentemente ao Have I Been Pwned (HIBP)
  • Destas, 625 milhões de senhas nunca haviam sido vistas antes, tornando este o maior volume de dados já processado pelo HIBP
  • Os dados foram coletados na plataforma de inteligência de ameaças da Synthient e incluem material de credential stuffing, com combinações de e-mail e senha vazadas de vários incidentes de violação
  • Para verificar a autenticidade dos dados, o HIBP pediu confirmação direta aos assinantes, e em alguns casos havia senhas ainda em uso real incluídas
  • Esta indexação não é um vazamento do Gmail, mas o resultado da coleta de credenciais de vítimas infectadas por malware; os usuários podem verificar sua exposição pelo HIBP ou pelo Pwned Passwords

Visão geral dos dados

  • O conjunto de dados inclui 1.957.476.021 endereços de e-mail únicos e 1,3 bilhão de senhas
    • Entre elas, 625 milhões de senhas foram vistas pela primeira vez no HIBP
    • É o maior volume já processado pelo HIBP até hoje, cerca de 3 vezes maior que o maior vazamento anterior
  • Os dados fazem parte de materiais de inteligência de ameaças coletados pela Synthient e incluem listas de credential stuffing
    • Dados de credential stuffing são gerados pela reutilização de combinações de e-mail e senha vazadas em vários incidentes
    • Devido à prática de usar a mesma senha em vários sites, um único vazamento pode levar ao comprometimento de contas em outros serviços

Processo de verificação dos dados

  • A verificação começou com o endereço de e-mail pessoal do autor, e algumas senhas antigas realmente correspondiam
    • Outras senhas não eram familiares, e algumas continham valores anômalos, como formatos de endereço IP
  • O HIBP também pediu verificação aos assinantes e reuniu vários casos
    • Um usuário relatou que tanto uma senha antiga quanto uma senha recente estavam incluídas e tomou providências imediatas para alterá-las
    • Outro usuário constatou que havia senhas usadas há 10 a 20 anos
    • Alguns respondentes ainda tinham senhas expostas que continuavam em uso em contas ativas
  • Como resultado da verificação, os dados contêm uma mistura de informações antigas e senhas ainda em uso
    • Alguns itens também eram senhas geradas automaticamente ou tão antigas que já não eram lembradas

Recurso de busca do Pwned Passwords

  • O serviço Pwned Passwords do HIBP armazena separadamente endereços de e-mail e senhas
    • Isso é uma medida de segurança e privacidade para evitar o risco de exposição de pares e-mail-senha
  • Os usuários podem verificar se uma senha foi exposta das seguintes formas
    1. Usando a página de busca do Pwned Passwords
    2. Fazendo consultas por código via API de k-anonymity
    3. Com verificação automática pelo recurso 1Password Watchtower
  • Todas as combinações de PIN de 4 dígitos já foram expostas, e também existe material de visualização de padrões de uso de PIN com base nos dados do HIBP

Não é um vazamento do Gmail

  • Este caso não tem relação com uma vulnerabilidade de segurança do Gmail, mas sim com dados de credenciais de vítimas coletados por infecção por malware
  • O conjunto completo inclui 32 milhões de domínios de e-mail, dos quais 394 milhões são gmail.com
    • Endereços do Gmail representam apenas cerca de 20% do total, e os 80% restantes pertencem a outros domínios
    • Não há relação com falha de segurança do Google

Processo técnico de tratamento

  • Este conjunto tem uma escala cerca de 3 vezes maior que o maior vazamento anterior, tornando o processamento bastante complexo
    • O HIBP processou os dados por cerca de 2 semanas em um ambiente Azure SQL Hyperscale (80 núcleos)
    • Durante a geração de hashes SHA1 dos endereços de e-mail, atualizações em massa falharam, então o processo foi alterado para lotes de 1 milhão de registros
  • 2,9 milhões dos 5,9 milhões de assinantes estão incluídos neste conjunto de dados
    • Para evitar filtragem por spam e limitações de servidor no envio em massa de e-mails, foi adotada uma estratégia de envio gradual
    • O volume de envio foi ajustado com crescimento de 1,015x por hora, aumentando cerca de 45% por dia
    • Configurações de DKIM, DMARC e SPF, além do uso de IP dedicado, foram usadas para manter a confiabilidade
  • O tamanho de resposta da API do Pwned Passwords aumentou de uma média de 26 KB para 40 KB
    • Isso ocorreu porque o tamanho dos intervalos de hash cresceu cerca de 50%, com a eficiência mantida por meio de compressão brotli

Conclusão e ações recomendadas

  • Este conjunto pode ser pesquisado no HIBP como “Synthient Credential Stuffing Threat Data”
    • É um conjunto separado dos dados anteriores da Synthient, embora haja alguma sobreposição
  • O HIBP verificou a integridade dos dados e oferece um recurso de busca com foco em privacidade
  • Medidas de segurança recomendadas aos usuários
    • Usar um gerenciador de senhas
    • Criar senhas fortes e exclusivas
    • Usar passkeys e ativar autenticação multifator (MFA)
  • O HIBP observa que este trabalho foi um projeto extremamente caro e demorado e pede que os usuários, em vez de solicitar acesso aos dados, foquem em melhorar seus hábitos de segurança

1 comentários

 
GN⁺ 2025-11-07
Comentário no Hacker News
  • Já houve vazamentos de dados demais até hoje. Parece que meu endereço, SSN, telefone, e-mail e tudo mais já foi exposto várias vezes
    Recebi notificações de vazamento da universidade, de sites de emprego, de redes sociais, e fora isso meus dados provavelmente circulam por aí por causa de análises legítimas de big data
    Hoje guardo e gerencio senhas fortes no Bitwarden, mas acho que contas antigas que eu usava no passado ainda devem estar em risco
    Sinceramente, nem sei mais o que dá para fazer a essa altura. É triste saber que meus dados já estão por aí fora

    • Uso um alias de e-mail diferente para cada conta e um gerenciador de senhas
      No tempo livre, estou limpando contas antigas. Assim consigo identificar na hora spam ou a origem de um vazamento pelo endereço de e-mail
      Com filtragem Sieve dá para classificar de forma bem mais sofisticada. Usando juntos envelope to e header to, dá para filtrar com precisão e-mails em BCC ou enviados para aliases
      Documentação relacionada: RFC5228 Sieve Filtering
      Antigamente até recuperei contas que tinha esquecido graças a spam que incluía minhas senhas antigas
    • Bitwarden é bom demais. Recomendo para todo mundo ao meu redor, mas a reação é fraca
      Minha esposa diz que proteger informação online já é uma batalha perdida. Talvez ela tenha razão
    • Endereços são, em grande parte, registros públicos. Se você procurar em sites como fastpeoplesearch.com, eles aparecem na hora
      Número de telefone também ficava tudo na lista telefônica antigamente. Ainda parece informação pública
    • Estou numa situação parecida. É importante colocar congelamento de crédito nas 3 grandes agências de crédito dos EUA
      Uma vez alguém contratou TV a cabo usando meus dados, e eu sofri para tirar isso do meu histórico de crédito
    • Eu estava servindo nas Forças Armadas, e a China chegou a roubar até meu perfil de DNA. Agora só aceitei
  • O Troy provavelmente vai conseguir economizar muito espaço no banco agora
    Tipo,

    def email_compromised(email):
        return True
    

    Parece que todos os e-mails já foram comprometidos a esse ponto

    • Não necessariamente. Meus dois e-mails principais ainda aparecem limpos
      Já os e-mails que uso para coisas aleatórias têm registro de 9 vazamentos
  • Parece que estes dados incluem informações vazadas não divulgadas do Spotify
    No começo de 2020, minha conta do Spotify, que tinha uma senha fraca, foi acessada a partir de um IP dos EUA
    Algumas horas depois, o Spotify enviou automaticamente uma redefinição de senha, mas nunca houve notificação oficial de vazamento
    Só agora esse e-mail apareceu no HIBP

    • Uma empresa grande como o Spotify deveria ter reportado oficialmente esse vazamento
  • Respeito o trabalho do Troy Hunt, mas ao procurar meu e-mail no Have I Been Pwned, não existe nenhuma ação prática a tomar
    O site só mostra a mensagem de que há risco e que você deve gerenciar bem suas senhas
    Trocar mais de 500 senhas é inviável na prática. No fim, você acaba dependendo de gerenciadores de senha como Bitwarden, 1Password, Chrome etc.

    • É preciso usar uma senha aleatória e única em cada site
      Eu também reutilizava a mesma senha no passado e tive todas as minhas contas comprometidas
      Hoje só memorizo a senha mestra do gerenciador, a do Gmail e a da criptografia de disco; todo o resto é gerado pelo gerenciador
      E ativo 2FA (U2F/WebAuthn) onde for possível
    • Exato. No fim, o gerenciador de senhas é o principal
    • Na página HIBP Passwords, dá para verificar com segurança se uma senha já apareceu em vazamentos
      O 1Password funciona do mesmo jeito e não armazena o nome da conta, então não cria novo risco de vazamento
    • Este dataset é um conjunto agregado de vários vazamentos, então não dá para saber a origem
    • Já recebi alertas do HIBP antes e redefini imediatamente as senhas dos usuários
      Mas, na maioria das vezes, eram senhas vindas de vazamentos antigos, então tento evitar ações desnecessárias
  • Como uso vários endereços de e-mail personalizados, preciso de assinatura paga para verificar tudo no HIBP
    Opero centenas de e-mails, então isso é incômodo. Mesmo assim, ainda vale a pena usar um endereço único para cada site

    • Antigamente a busca por domínio era gratuita. Cadastrei em 2017 e recebi alertas de vazamento em 2020 e 2022
    • Na prática, usar e-mails com alias permite saber imediatamente quando houve vazamento. E só com o e-mail é difícil fazer roubo de identidade
    • Estou na mesma situação. Rastreio todos os e-mails no gerenciador de senhas, mas verificar um por um no HIBP é trabalhoso
    • O mais realista é assumir que todos os e-mails já foram expostos. E-mail não é segredo
    • No fim, a senha é o verdadeiro segredo. Se você mantiver senhas fortes, está ok
  • No passado, um vazamento do Facebook expôs meu e-mail antigo, e alguém registrou aquele domínio de novo para tentar tomar minha conta
    Felizmente consegui bloquear isso graças ao 2FA e aos alertas de segurança do Facebook
    Endereços de e-mail que você não usa mais devem ser removidos das contas sem falta

    • Se você usa domínio próprio para e-mail, isso implica custo de manutenção para sempre. Se perder o domínio, outra pessoa pode comprá-lo e tentar recuperação de conta
      Com iCloud e Gmail facilitando conectar domínios personalizados, esse risco ficou maior
    • Surpreende alguém ir tão longe só para mirar uma conta
    • Também acho curioso que a pessoa tenha pago para comprar o domínio e tentar isso. Nem sou famoso
  • A parte sobre ter rodado Azure SQL Hyperscale com 80 cores por 2 semanas foi interessante
    Para gerenciar só e-mails e senhas, SQL parece uma escolha excessiva.
    Mesmo com 15 bilhões de registros, 600 GB parecem algo que um servidor comum conseguiria lidar

    • Na prática, o problema foi atualizar 1,9 bilhão de hashes SHA1
      Atualização in-place era lenta, então ele criou uma tabela separada, e ao enviar alertas por e-mail também esbarrou em limites do provedor de e-mail
    • Também pensei isso. O Troy provavelmente usou Azure por causa da relação dele com a Microsoft
      O título “Microsoft Regional Director and MVP” é confuso
    • Azure SQL foi claramente a escolha errada. Para algo que só faz busca de hash, uma estrutura baseada em arquivo binário seria muito mais eficiente
      Dá para criar um arquivo de 20 GB com hashes SHA1 ordenados e fazer consulta com busca binária ou com índice baseado na distribuição dos hashes, resolvendo em 1 I/O por busca
      Dividindo em 65.536 chunks e ordenando, o problema de memória também se resolve
      Uma estrutura assim pode rodar no Blob Storage por algo como 50 vezes menos custo do que Azure SQL
  • Parece que os dados do HIBP têm algum tipo de prazo de expiração. Antigamente meu e-mail aparecia no vazamento do Dropbox, mas agora o registro sumiu
    Página do vazamento do Dropbox

  • Fico curioso sobre qual é melhor entre Bitwarden / 1Password / Proton Pass
    Ainda é cedo para confiar no Proton Pass, e também vem à mente aquela ideia de “não colocar tudo na mesma cesta”
    Escolhi o Bitwarden por ser open source, e espero que, como a base de usuários gratuitos é grande, os problemas apareçam e sejam corrigidos rapidamente

    • Uso 1Password e a UI e os recursos de gestão empresarial são bem mais confortáveis
      Se você usa conta business, ganhar uma conta familiar grátis também é uma vantagem
      Dito isso, a filosofia open source do Bitwarden também merece consideração
  • O título deste post talvez fosse mais preciso como “1,3 bilhão de senhas vazadas
    O número é um pouco menor, mas o significado é bem maior

    • O número real de senhas provavelmente deve ser ainda menor 😉