38 TB de dados foram expostos acidentalmente por pesquisadores de IA da Microsoft

(wiz.io)

7 pontos por GN⁺ 2023-09-19 | 1 comentários | Compartilhar no WhatsApp

A equipe de pesquisa em IA da Microsoft expôs acidentalmente 38 terabytes de dados privados ao publicar dados de treinamento open source no GitHub
Os dados expostos incluíam backups de discos de trabalho de dois funcionários, segredos, chaves privadas, senhas e mais de 30.000 mensagens internas do Microsoft Teams
Esses dados foram compartilhados usando tokens SAS, um recurso do Azure que permite compartilhar dados em contas do Azure Storage. Porém, o link foi configurado para compartilhar a conta de armazenamento inteira, o que levou à exposição dos dados
O incidente destaca os novos riscos que as organizações enfrentam ao usar IA e mostra que são necessárias verificações de segurança adicionais e salvaguardas à medida que mais engenheiros lidam com grandes volumes de dados de treinamento
A equipe de pesquisa da Wiz descobriu a exposição ao encontrar na internet um contêiner de armazenamento configurado incorretamente
Eles encontraram um repositório do GitHub chamado robust-models-transfer, dentro da organização Microsoft, criado para fornecer código open source e modelos de IA para reconhecimento de imagens, mas que, por causa da configuração incorreta, permitia uma URL com acesso a muito mais do que os modelos open source
O token usado também foi configurado incorretamente para permitir permissões de "controle total", o que possibilitaria a um invasor visualizar, excluir e sobrescrever arquivos existentes
O incidente destaca os riscos de segurança dos tokens SAS, que concedem alto nível de acesso às contas de armazenamento e podem ter problemas relacionados à expiração. Além disso, são difíceis de gerenciar e revogar
A equipe da Wiz recomenda evitar o uso de Account SAS para compartilhamento externo devido à falta de segurança e governança, e sugere usar Stored Access Policy ou User Delegation SAS para compartilhamento com tempo limitado
A equipe também recomenda criar contas de armazenamento dedicadas para compartilhamento externo e usar CSPM para rastrear e aplicar políticas
O incidente serve de alerta às equipes de segurança para que entendam os riscos inerentes a cada etapa do processo de desenvolvimento de IA, incluindo o risco de compartilhamento excessivo de dados e de ataques à cadeia de suprimentos
Posteriormente, a Microsoft invalidou o token SAS, substituiu-o no GitHub e concluiu uma investigação interna sobre o impacto potencial

1 comentários

GN⁺ 2023-09-19

Comentários no Hacker News

Artigo sobre o incidente de exposição de dados por pesquisadores de IA da Microsoft, mas os comentaristas apontam que isso não está diretamente relacionado à IA
A questão tem mais a ver com o provedor de nuvem, tokens de segurança confusos e o tratamento de downloads de dados em grande escala
Um dos riscos específicos de IA destacados é o uso de objetos Python serializados para armazenar modelos grandes de IA, que podem ser ofuscados e potencialmente incluir código malicioso
O incidente foi causado por uma configuração incorreta de tokens de armazenamento, um caso comum que reforça a necessidade de testes regulares de intrusão
O uso de arquivos Pickle e tokens SAS no armazenamento do Azure é criticado, e sugere-se usar controle de acesso baseado em função (RBAC) em vez disso
O incidente revela a ausência de defesa em profundidade: os tokens SAS não tinham prazo de expiração, concediam acesso amplo e incluíam backups de máquinas com seus próprios tokens
Há a sugestão de invalidar todos os segredos e variáveis de ambiente, e de que a maioria dos sistemas poderia operar com base em funções
O caso parece ser uma falha humana na geração de tokens de segurança, e sugere-se que as organizações configurem OrgPolicy para impedir o compartilhamento em massa de tokens/credenciais de autenticação
Houve surpresa pelo fato de alguém conseguir exportar mensagens do Teams a partir do Teams
A exposição de dados continuou por dois anos e foi corrigida há dois meses
Alguns comentaristas não gostam do sistema de gerenciamento de chaves do Azure e sugerem que seria melhor ter chaves nomeadas ilimitadas para cada contêiner
O incidente parece demonstrar a dificuldade da segurança em nuvem, em que um ou dois erros podem expor terabytes de dados

38 TB de dados foram expostos acidentalmente por pesquisadores de IA da Microsoft

Leituras relacionadas

1 comentários

Comentários no Hacker News