4 TB de amostras de voz de 40 mil contratados de IA vazam da Mercor
(app.oravys.com)- Ocorreu um grande vazamento que vinculou biometria de voz e documentos de identidade emitidos pelo governo em uma única linha de dados, incluindo mais de 40 mil contratados de IA com base no índice de amostras vazadas
- As gravações continham, em média, 2 a 5 minutos de áudio limpo por contratado, superando com folga o limiar de clonagem de voz, que pode ser alcançado com apenas cerca de 15 segundos de áudio de referência
- Os dados vazados fornecem, ao mesmo tempo, clones de voz e identidades verificadas, podendo ser explorados para burlar autenticação por voz em bancos, vishing contra ambientes de trabalho, videochamadas deepfake, fraude em pedidos de seguro e ligações urgentes se passando por familiares
- Se você enviou amostras de voz para a Mercor ou para outras intermediárias de treinamento de IA que operaram até 2025, deve tratá-las como uma senha vazada; é preciso remover áudios públicos, definir palavras-código e refazer ou desativar registros de voiceprint
- Vozes suspeitas devem passar por análise forense para verificar incompatibilidade de codec, padrões de respiração, microjitter, trajetórias de formantes, consistência acústica do ambiente, prosódia e velocidade de fala anormais, evidenciando ainda mais a fragilidade geral da autenticação por voz
Visão geral da violação
- Em 4 de abril de 2026, o Lapsus$ publicou a Mercor em seu site de vazamentos, e o volume exposto teria sido de cerca de 4 TB
- O arquivo vazado vinculava biometria de voz e documentos de identidade emitidos pelo governo da mesma pessoa, incluindo mais de 40 mil contratados com base no índice de amostras vazadas
- As pessoas afetadas eram contratados que se registraram para rotulagem de dados para treinamento de IA, gravação de frases lidas em voz alta e chamadas de verificação
- Em até 10 dias após a publicação, cinco ações judiciais de contratados foram apresentadas, alegando que os voiceprints foram coletados como “dados de treinamento” sem deixar claro que se tratavam de identificadores biométricos permanentes
Por que este vazamento é diferente
- Os vazamentos de voz da última década normalmente se dividiam entre gravações de chamadas difíceis de vincular à identidade ou vazamentos de documentos e selfies sem áudio
- O processo de cadastro da Mercor combinava em uma única linha de dados o escaneamento de passaporte ou carteira de motorista, selfie por webcam e gravação de voz lendo um roteiro em ambiente silencioso
- Essa combinação corresponde exatamente ao formato exigido como entrada por serviços de clonagem sintética de voz
- Segundo uma reportagem do Wall Street Journal de fevereiro de 2026, ferramentas disponíveis comercialmente precisam de apenas cerca de 15 segundos de áudio limpo de referência para clonagem de voz de alta qualidade
- As gravações da Mercor teriam, em média, 2 a 5 minutos de voz em qualidade de estúdio por contratado, muito acima do limiar necessário para clonagem
- Quando isso é combinado com documentos de identidade verificados, o atacante passa a ter tanto o clone de voz quanto as credenciais para usá-lo em ataques reais
Ataques possíveis com os dados de voz roubados
-
Burlar autenticação bancária
- Muitos bancos dos EUA e do Reino Unido ainda tratam a correspondência de voiceprint como um dos dois fatores
- Se um clone da voz do titular da conta ler a frase de desafio, ele pode passar pela barreira de áudio, restando apenas perguntas de conhecimento, que também podem vir do mesmo conjunto de dados vazado
-
Vishing contra o ambiente de trabalho
- É possível ligar para RH ou financeiro fingindo ser um funcionário para tentar alterar conta de pagamento, solicitar transferência ou desbloquear uma estação de trabalho
- O arquivo do Krebs on Security reúne mais de 24 casos confirmados desde 2023
-
Videochamadas deepfake
- Em 2024, na Arup, um responsável financeiro transferiu cerca de 25 milhões de dólares após uma videochamada deepfake com múltiplas pessoas
- Na época, voz e rosto foram criados a partir de vídeos públicos, mas o material vazado da Mercor inclui áudio de estúdio e documentos verificados melhores do que vídeos públicos
-
Fraude em pedidos de seguro
- A Pindrop registrou ao longo de 2025 um aumento de 475% nos ataques com voz sintética a centrais de atendimento de seguradoras em relação ao ano anterior
- Pedidos de seguro de automóvel, vida e invalidez processados por telefone são os principais alvos
-
Golpes de ligação urgente se passando por familiares
- O Internet Crime Complaint Center do FBI calculou perdas de 2,3 bilhões de dólares entre vítimas com mais de 60 anos ao longo de 2026
- A categoria que mais cresceu foi a de ligações urgentes fingindo que um parente estava em perigo
Como verificar uso indevido da voz e responder imediatamente
- Se você enviou amostras de voz para a Mercor ou para outras intermediárias de treinamento de IA que operaram até 2025, deve tratá-las como uma senha vazada
- A voz em si não pode ser trocada, mas os meios de autenticação que ela pode desbloquear podem ser alterados
-
Verifique rastros públicos de áudio
- É preciso procurar amostras de voz indexadas publicamente no YouTube, em diretórios de podcasts e em gravações antigas de Zoom
- O ideal é remover o máximo possível de áudio público que possa ser retirado do ar
- Quanto menos áudio público de referência houver, menos robusto tende a ser o clone do atacante
-
Defina palavras-código verbais com familiares e contatos financeiros
- Escolha uma frase que nunca tenha sido gravada nem digitada em chat
- Ela deve ser compartilhada antecipadamente com quem lida com movimentação de dinheiro por você
- Em chamadas pedindo transferência, o uso da palavra-código deve ser um procedimento obrigatório
-
Refazer cadastros onde voiceprints são usados
- Registros como Google Voice Match, Amazon Alexa Voice ID, Apple personal voice e voiceprints bancários podem ser apagados e substituídos
- O ideal é recadastrar usando uma nova gravação feita em ambiente acústico diferente das amostras vazadas
-
Desativar autenticação bancária por voiceprint
- É possível solicitar por escrito que o voiceprint seja removido como fator de autenticação
- É melhor exigir autenticação multifator combinando token em aplicativo ou chave de hardware com fatores baseados em conhecimento
- Muitos bancos oferecem a opção de retirar a voz como fator principal de autenticação, mas não divulgam isso amplamente
-
Fazer análise forense em gravações suspeitas
- Se você receber um arquivo de áudio ou mensagem de voz de alguém que diz ser conhecido e pede dinheiro, acesso ou resposta urgente, é melhor não agir de imediato e passar o material por um detector de deepfake
- A ORAVYS oferece análise gratuita dos três primeiros exemplos enviados por vítimas da violação
- Executar uma análise forense →
Checklist de análise forense
- A análise forense começa procurando erros comuns de voz sintética
- Incompatibilidade de codec aparece quando a assinatura espectral de um áudio que supostamente veio de uma chamada telefônica não corresponde aos codecs telefônicos conhecidos
- Padrões de respiração divergem porque falantes reais respiram em pontos compatíveis com o comprimento das frases e a capacidade pulmonar, enquanto vozes sintéticas podem pular respirações ou inseri-las em limites silábicos errados
- Microjitter é a pequena irregularidade natural da vibração das cordas vocais; áudios gerados costumam ser limpos demais na escala de milissegundos
- Trajetórias de formantes seguem os caminhos de transição vocálica criados pelo aparelho articulatório humano, enquanto vozes clonadas às vezes saltam entre formantes de forma fisicamente impossível
- Consistência acústica do ambiente exige que as características de reverberação permaneçam iguais do início ao fim do arquivo, mas áudios gerados podem ter a voz seca enquanto o contexto ambiente colado ao redor apresenta reverberação
- Achatamento da prosódia aparece quando a voz sintética varia menos em altura tonal e energia do que um falante real
- Estabilidade da velocidade de fala também denuncia o sintético: ao contrário da aceleração e desaceleração humanas, a voz gerada mantém um ritmo constante como um metrônomo por longos trechos
Como a ORAVYS faz a análise
- Para cada amostra enviada, a empresa executa em paralelo mais de 3.000 mecanismos forenses, cobrindo conjuntamente sinais, prosódia, articulação, codec e origem
- A detecção de watermark do AudioSeal pode sinalizar arquivos gerados por grandes modelos comerciais de voz quando a marca d’água foi preservada, oferecendo resultado positivo conclusivo nesses casos
- O módulo anti-spoofing foi treinado com base no benchmark público ASVspoof e pontua a probabilidade de a amostra ter sido sintetizada em vez de gravada
- O processamento de biometria segue conformidade com a RGPD, não usa o áudio para treinamento de modelos comerciais sem consentimento explícito e apaga os dados conforme uma política definida de retenção
- Se você era contratado da Mercor e sua voz já pode estar circulando, os três primeiros exemplos suspeitos são analisados gratuitamente
- O relatório gratuito inclui detecção de watermark, pontuação anti-spoofing e o checklist de artefatos acima
- A empresa afirma que não exige cartão nem impõe barreiras de limite de uso
Fontes e limitações
- As fontes citadas incluem o índice do site de vazamentos do Lapsus$, o Wall Street Journal de fevereiro de 2026, o Pindrop Voice Intelligence Report 2025, o FBI IC3 Elder Fraud Report 2026 e o arquivo do Krebs on Security
- A ORAVYS não hospeda nem redistribui o conjunto de dados vazado, nem o aceita como entrada
1 comentários
Opiniões do Hacker News
Há uma grande ironia nisso tudo. Para reduzir o dano de ter minha voz entregue a uma empresa de IA, a solução seria enviar minha voz para outra empresa de IA — absurdo
O mais provável é que a Mercor também tenha incluído algum consentimento explícito nos termos, criando uma brecha legal para se safar
Era preciso entregar gravações de voz em nível de estúdio e escaneamentos de documento de identidade, mas nenhum dos dois era necessário para o trabalho real de rotulagem de dados; o consentimento estava enterrado fundo nos termos, e as pessoas acabavam clicando porque precisavam do pagamento
Agora 40 mil pessoas aprenderam que dados biométricos não são senhas, e ficou claro também que não dá para trocar a própria voz
Em tese, a lei deveria ser um meio acessível de resolver conflitos sem violência, mas hoje ela é usada com mais frequência como um sistema kafkiano para manter o poder corporativo acima do indivíduo
Na prática, está mais perto de bloquear quase todos os meios de reparação legal, enquanto outras formas de reação exigem custos altos e contínuos, como manter várias residências ou contratar segurança
Não é defesa da violência, e sim a ideia de que precisamos de um sistema jurídico mais horizontal e acessível
Muita gente acabou, na prática, grampeando a si mesma e às próprias empresas
Mesmo que contratados da Mercor aleguem coleta excessiva de dados via Insightful, do ponto de vista da empresa a estrutura é bem esperta. Isso porque, se reclamarem alto demais, podem não só perder sua fonte principal de renda como também assumir medo de responsabilidade ilimitada por conduta intencionalmente ilegal
https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
Sou o autor. Escrevi este texto depois de ver o arquivo da Mercor que o Lapsus$ colocou no site de vazamentos no começo deste mês
O que mais me chamou atenção foi a combinação de amostras de voz com escaneamentos de identidade. Normalmente vazamentos têm um ou outro; neste caso, foi como entregar um kit completo pronto para deepfakes
Tentei organizar de forma prática o que um atacante pode realmente fazer com essa combinação — por exemplo, burlar autenticação por voz em bancos, fazer falsificação de videochamadas no estilo Arup, fraude em seguros — além de uma checklist de 5 etapas para os contratados afetados seguirem
Também dá para falar sobre detecção forense. A marca d’água do AudioSeal, o anti-spoofing do AASIST e como o cenário de detecção muda quando biometria de voz começa a vazar em larga escala também são importantes
Postagens em redes sociais podem não ser um anúncio oficial, mas encontrei esta amostra de notificação de vazamento enviada à Califórnia
Resta ver se nossos legisladores vão tratar privacidade de dados com seriedade desta vez
https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
Nos dispositivos da Apple também não uso biometria, só PIN de 6 dígitos
Sempre achei que era uma ideia idiota desde o começo
Trocam segurança por conveniência, tratam quem não escolhe conveniência como paranoico e, depois que o desastre realmente acontece, continuam tratando essas pessoas como paranoicas por outro motivo
Só dados que não existem não podem ser roubados nem vazados. É uma lição dura tanto para usuários quanto para empresas
Em alemão, existe até a palavra Datensparsamkeit para esse conceito. É algo como usar dados com parcimônia
Na Alemanha dos anos 1970 houve um grande debate sobre privacidade e armazenamento de dados, e expressões como Datenschatten também eram usadas
Essa tradição provavelmente vem da reflexão do pós-Segunda Guerra sobre os sistemas administrativos
Agora todo mundo quer coletar mais de tudo como dados para IA
Eles podem ser copiados ou apagados, e às vezes as duas coisas acontecem ao mesmo tempo
Só dá para dizer que os dados realmente desapareceram quando a última cópia foi apagada
Nos modelos de ameaça corporativos, os próprios usuários entram no cálculo, e o modo de operação é continuar acumulando o máximo possível de informação sobre essa ameaça
Por exemplo, o dataset Common Voice da Mozilla não é algo que alguém possa roubar
Ontem em Houston estive perto de ex-pessoas de agências e gente saída do GS15, e ouvi a explicação de que o lado israelense de cibersegurança se enfiou em algum ponto da cadeia de fornecimento de correio de voz ao longo dos últimos 20 anos e ficou com o voicemail de todo mundo
Hoje existem realmente muitas formas de explorar dados de áudio, e isso é assustador
Dá até vontade de pensar que agora todo mundo vai ter que trocar de voz
É brincadeira, mas a maioria das pessoas comuns que conheço entrega biometria simplesmente porque é mais fácil
Precisamos rotular biometria como uma espécie de senha permanente, para que as pessoas entendam exatamente o que estão entregando quando usam isso para acessar conta bancária ou entrar na Disney World
Impressões digitais, DNA, íris e jeito de andar são identificadores permanentes quase impossíveis de trocar e ficam expostos ao mundo o tempo todo, como um endereço de e-mail
Além disso, pela lei dos EUA a polícia pode obrigar alguém a fornecer impressão digital, enquanto senhas têm proteção da Quinta Emenda
Vive bem dentro de uma lógica de confiança social e negabilidade plausível, e tende a não se importar tanto com o que acontecer desde que a culpa não seja sua
Não vê estar exposto ao risco como a mesma coisa que isso ser sua responsabilidade
Em certo sentido, até dá um pouco de inveja. É como viver partindo da premissa de que o mundo deveria funcionar assim
A ideia era que o cliente não esqueceria e precisaria de menos suporte, então muita gente pode muito bem interpretar isso como algo bom
O fato de a Mercor ter enganado 40 mil contratados e ainda ter uma segurança de dados desastrosa é realmente muito ruim
Isso deveria trazer uma responsabilização bem mais forte
Então existe a possibilidade de que todo este caos acabe virando até mais negócios para a Mercor
Vi algo parecido no caso da Crowdstrike
Se um atacante tiver 30 segundos de áudio limpo de alguém lendo e um escaneamento da carteira de motorista, dá para fazer bastante coisa
Só no meu caso, meu banco e minha corretora usam ID de voz
Dá até a impressão de que o propósito desta empresa era justamente extrair esse tipo de dado
Há coleta em massa de vídeo, voz e várias outras coisas
Se isso for verdade, talvez o problema maior nem seja o vazamento em si
Estamos entrando silenciosamente em um mundo onde voz + documento de identidade bastam para personificar alguém por completo, e a maioria dos sistemas ainda não foi projetada partindo dessa realidade
Há também aqui uma questão trabalhista nada agradável
As pessoas que rotulam e treinam esses sistemas acabam justamente na posição menos protegida quando o pipeline de dados vira superfície de ataque