- Um grande conjunto de dados contendo 1.957.470.000 endereços de e-mail únicos e 1,3 bilhão de senhas foi divulgado e adicionado recentemente ao Have I Been Pwned (HIBP)
- Destas, 625 milhões de senhas nunca haviam sido vistas antes, tornando este o maior volume de dados já processado pelo HIBP
- Os dados foram coletados na plataforma de inteligência de ameaças da Synthient e incluem material de credential stuffing, com combinações de e-mail e senha vazadas de vários incidentes de violação
- Para verificar a autenticidade dos dados, o HIBP pediu confirmação direta aos assinantes, e em alguns casos havia senhas ainda em uso real incluídas
- Esta indexação não é um vazamento do Gmail, mas o resultado da coleta de credenciais de vítimas infectadas por malware; os usuários podem verificar sua exposição pelo HIBP ou pelo Pwned Passwords
Visão geral dos dados
- O conjunto de dados inclui 1.957.476.021 endereços de e-mail únicos e 1,3 bilhão de senhas
- Entre elas, 625 milhões de senhas foram vistas pela primeira vez no HIBP
- É o maior volume já processado pelo HIBP até hoje, cerca de 3 vezes maior que o maior vazamento anterior
- Os dados fazem parte de materiais de inteligência de ameaças coletados pela Synthient e incluem listas de credential stuffing
- Dados de credential stuffing são gerados pela reutilização de combinações de e-mail e senha vazadas em vários incidentes
- Devido à prática de usar a mesma senha em vários sites, um único vazamento pode levar ao comprometimento de contas em outros serviços
Processo de verificação dos dados
- A verificação começou com o endereço de e-mail pessoal do autor, e algumas senhas antigas realmente correspondiam
- Outras senhas não eram familiares, e algumas continham valores anômalos, como formatos de endereço IP
- O HIBP também pediu verificação aos assinantes e reuniu vários casos
- Um usuário relatou que tanto uma senha antiga quanto uma senha recente estavam incluídas e tomou providências imediatas para alterá-las
- Outro usuário constatou que havia senhas usadas há 10 a 20 anos
- Alguns respondentes ainda tinham senhas expostas que continuavam em uso em contas ativas
- Como resultado da verificação, os dados contêm uma mistura de informações antigas e senhas ainda em uso
- Alguns itens também eram senhas geradas automaticamente ou tão antigas que já não eram lembradas
Recurso de busca do Pwned Passwords
- O serviço Pwned Passwords do HIBP armazena separadamente endereços de e-mail e senhas
- Isso é uma medida de segurança e privacidade para evitar o risco de exposição de pares e-mail-senha
- Os usuários podem verificar se uma senha foi exposta das seguintes formas
- Usando a página de busca do Pwned Passwords
- Fazendo consultas por código via API de k-anonymity
- Com verificação automática pelo recurso 1Password Watchtower
- Todas as combinações de PIN de 4 dígitos já foram expostas, e também existe material de visualização de padrões de uso de PIN com base nos dados do HIBP
Não é um vazamento do Gmail
- Este caso não tem relação com uma vulnerabilidade de segurança do Gmail, mas sim com dados de credenciais de vítimas coletados por infecção por malware
- O conjunto completo inclui 32 milhões de domínios de e-mail, dos quais 394 milhões são gmail.com
- Endereços do Gmail representam apenas cerca de 20% do total, e os 80% restantes pertencem a outros domínios
- Não há relação com falha de segurança do Google
Processo técnico de tratamento
- Este conjunto tem uma escala cerca de 3 vezes maior que o maior vazamento anterior, tornando o processamento bastante complexo
- O HIBP processou os dados por cerca de 2 semanas em um ambiente Azure SQL Hyperscale (80 núcleos)
- Durante a geração de hashes SHA1 dos endereços de e-mail, atualizações em massa falharam, então o processo foi alterado para lotes de 1 milhão de registros
- 2,9 milhões dos 5,9 milhões de assinantes estão incluídos neste conjunto de dados
- Para evitar filtragem por spam e limitações de servidor no envio em massa de e-mails, foi adotada uma estratégia de envio gradual
- O volume de envio foi ajustado com crescimento de 1,015x por hora, aumentando cerca de 45% por dia
- Configurações de DKIM, DMARC e SPF, além do uso de IP dedicado, foram usadas para manter a confiabilidade
- O tamanho de resposta da API do Pwned Passwords aumentou de uma média de 26 KB para 40 KB
- Isso ocorreu porque o tamanho dos intervalos de hash cresceu cerca de 50%, com a eficiência mantida por meio de compressão brotli
Conclusão e ações recomendadas
- Este conjunto pode ser pesquisado no HIBP como “Synthient Credential Stuffing Threat Data”
- É um conjunto separado dos dados anteriores da Synthient, embora haja alguma sobreposição
- O HIBP verificou a integridade dos dados e oferece um recurso de busca com foco em privacidade
- Medidas de segurança recomendadas aos usuários
- Usar um gerenciador de senhas
- Criar senhas fortes e exclusivas
- Usar passkeys e ativar autenticação multifator (MFA)
- O HIBP observa que este trabalho foi um projeto extremamente caro e demorado e pede que os usuários, em vez de solicitar acesso aos dados, foquem em melhorar seus hábitos de segurança
1 comentários
Comentário no Hacker News
Já houve vazamentos de dados demais até hoje. Parece que meu endereço, SSN, telefone, e-mail e tudo mais já foi exposto várias vezes
Recebi notificações de vazamento da universidade, de sites de emprego, de redes sociais, e fora isso meus dados provavelmente circulam por aí por causa de análises legítimas de big data
Hoje guardo e gerencio senhas fortes no Bitwarden, mas acho que contas antigas que eu usava no passado ainda devem estar em risco
Sinceramente, nem sei mais o que dá para fazer a essa altura. É triste saber que meus dados já estão por aí fora
No tempo livre, estou limpando contas antigas. Assim consigo identificar na hora spam ou a origem de um vazamento pelo endereço de e-mail
Com filtragem Sieve dá para classificar de forma bem mais sofisticada. Usando juntos
envelope toeheader to, dá para filtrar com precisão e-mails em BCC ou enviados para aliasesDocumentação relacionada: RFC5228 Sieve Filtering
Antigamente até recuperei contas que tinha esquecido graças a spam que incluía minhas senhas antigas
Minha esposa diz que proteger informação online já é uma batalha perdida. Talvez ela tenha razão
Número de telefone também ficava tudo na lista telefônica antigamente. Ainda parece informação pública
Uma vez alguém contratou TV a cabo usando meus dados, e eu sofri para tirar isso do meu histórico de crédito
O Troy provavelmente vai conseguir economizar muito espaço no banco agora
Tipo,
Parece que todos os e-mails já foram comprometidos a esse ponto
Já os e-mails que uso para coisas aleatórias têm registro de 9 vazamentos
Parece que estes dados incluem informações vazadas não divulgadas do Spotify
No começo de 2020, minha conta do Spotify, que tinha uma senha fraca, foi acessada a partir de um IP dos EUA
Algumas horas depois, o Spotify enviou automaticamente uma redefinição de senha, mas nunca houve notificação oficial de vazamento
Só agora esse e-mail apareceu no HIBP
Respeito o trabalho do Troy Hunt, mas ao procurar meu e-mail no Have I Been Pwned, não existe nenhuma ação prática a tomar
O site só mostra a mensagem de que há risco e que você deve gerenciar bem suas senhas
Trocar mais de 500 senhas é inviável na prática. No fim, você acaba dependendo de gerenciadores de senha como Bitwarden, 1Password, Chrome etc.
Eu também reutilizava a mesma senha no passado e tive todas as minhas contas comprometidas
Hoje só memorizo a senha mestra do gerenciador, a do Gmail e a da criptografia de disco; todo o resto é gerado pelo gerenciador
E ativo 2FA (U2F/WebAuthn) onde for possível
O 1Password funciona do mesmo jeito e não armazena o nome da conta, então não cria novo risco de vazamento
Mas, na maioria das vezes, eram senhas vindas de vazamentos antigos, então tento evitar ações desnecessárias
Como uso vários endereços de e-mail personalizados, preciso de assinatura paga para verificar tudo no HIBP
Opero centenas de e-mails, então isso é incômodo. Mesmo assim, ainda vale a pena usar um endereço único para cada site
No passado, um vazamento do Facebook expôs meu e-mail antigo, e alguém registrou aquele domínio de novo para tentar tomar minha conta
Felizmente consegui bloquear isso graças ao 2FA e aos alertas de segurança do Facebook
Endereços de e-mail que você não usa mais devem ser removidos das contas sem falta
Com iCloud e Gmail facilitando conectar domínios personalizados, esse risco ficou maior
A parte sobre ter rodado Azure SQL Hyperscale com 80 cores por 2 semanas foi interessante
Para gerenciar só e-mails e senhas, SQL parece uma escolha excessiva.
Mesmo com 15 bilhões de registros, 600 GB parecem algo que um servidor comum conseguiria lidar
Atualização in-place era lenta, então ele criou uma tabela separada, e ao enviar alertas por e-mail também esbarrou em limites do provedor de e-mail
O título “Microsoft Regional Director and MVP” é confuso
Dá para criar um arquivo de 20 GB com hashes SHA1 ordenados e fazer consulta com busca binária ou com índice baseado na distribuição dos hashes, resolvendo em 1 I/O por busca
Dividindo em 65.536 chunks e ordenando, o problema de memória também se resolve
Uma estrutura assim pode rodar no Blob Storage por algo como 50 vezes menos custo do que Azure SQL
Parece que os dados do HIBP têm algum tipo de prazo de expiração. Antigamente meu e-mail aparecia no vazamento do Dropbox, mas agora o registro sumiu
Página do vazamento do Dropbox
Fico curioso sobre qual é melhor entre Bitwarden / 1Password / Proton Pass
Ainda é cedo para confiar no Proton Pass, e também vem à mente aquela ideia de “não colocar tudo na mesma cesta”
Escolhi o Bitwarden por ser open source, e espero que, como a base de usuários gratuitos é grande, os problemas apareçam e sejam corrigidos rapidamente
Se você usa conta business, ganhar uma conta familiar grátis também é uma vantagem
Dito isso, a filosofia open source do Bitwarden também merece consideração
O título deste post talvez fosse mais preciso como “1,3 bilhão de senhas vazadas”
O número é um pouco menor, mas o significado é bem maior