7 pontos por GN⁺ 2023-09-19 | 1 comentários | Compartilhar no WhatsApp
  • A equipe de pesquisa em IA da Microsoft expôs acidentalmente 38 terabytes de dados privados ao publicar dados de treinamento open source no GitHub
  • Os dados expostos incluíam backups de discos de trabalho de dois funcionários, segredos, chaves privadas, senhas e mais de 30.000 mensagens internas do Microsoft Teams
  • Esses dados foram compartilhados usando tokens SAS, um recurso do Azure que permite compartilhar dados em contas do Azure Storage. Porém, o link foi configurado para compartilhar a conta de armazenamento inteira, o que levou à exposição dos dados
  • O incidente destaca os novos riscos que as organizações enfrentam ao usar IA e mostra que são necessárias verificações de segurança adicionais e salvaguardas à medida que mais engenheiros lidam com grandes volumes de dados de treinamento
  • A equipe de pesquisa da Wiz descobriu a exposição ao encontrar na internet um contêiner de armazenamento configurado incorretamente
  • Eles encontraram um repositório do GitHub chamado robust-models-transfer, dentro da organização Microsoft, criado para fornecer código open source e modelos de IA para reconhecimento de imagens, mas que, por causa da configuração incorreta, permitia uma URL com acesso a muito mais do que os modelos open source
  • O token usado também foi configurado incorretamente para permitir permissões de "controle total", o que possibilitaria a um invasor visualizar, excluir e sobrescrever arquivos existentes
  • O incidente destaca os riscos de segurança dos tokens SAS, que concedem alto nível de acesso às contas de armazenamento e podem ter problemas relacionados à expiração. Além disso, são difíceis de gerenciar e revogar
  • A equipe da Wiz recomenda evitar o uso de Account SAS para compartilhamento externo devido à falta de segurança e governança, e sugere usar Stored Access Policy ou User Delegation SAS para compartilhamento com tempo limitado
  • A equipe também recomenda criar contas de armazenamento dedicadas para compartilhamento externo e usar CSPM para rastrear e aplicar políticas
  • O incidente serve de alerta às equipes de segurança para que entendam os riscos inerentes a cada etapa do processo de desenvolvimento de IA, incluindo o risco de compartilhamento excessivo de dados e de ataques à cadeia de suprimentos
  • Posteriormente, a Microsoft invalidou o token SAS, substituiu-o no GitHub e concluiu uma investigação interna sobre o impacto potencial

1 comentários

 
GN⁺ 2023-09-19
Comentários no Hacker News
  • Artigo sobre o incidente de exposição de dados por pesquisadores de IA da Microsoft, mas os comentaristas apontam que isso não está diretamente relacionado à IA
  • A questão tem mais a ver com o provedor de nuvem, tokens de segurança confusos e o tratamento de downloads de dados em grande escala
  • Um dos riscos específicos de IA destacados é o uso de objetos Python serializados para armazenar modelos grandes de IA, que podem ser ofuscados e potencialmente incluir código malicioso
  • O incidente foi causado por uma configuração incorreta de tokens de armazenamento, um caso comum que reforça a necessidade de testes regulares de intrusão
  • O uso de arquivos Pickle e tokens SAS no armazenamento do Azure é criticado, e sugere-se usar controle de acesso baseado em função (RBAC) em vez disso
  • O incidente revela a ausência de defesa em profundidade: os tokens SAS não tinham prazo de expiração, concediam acesso amplo e incluíam backups de máquinas com seus próprios tokens
  • Há a sugestão de invalidar todos os segredos e variáveis de ambiente, e de que a maioria dos sistemas poderia operar com base em funções
  • O caso parece ser uma falha humana na geração de tokens de segurança, e sugere-se que as organizações configurem OrgPolicy para impedir o compartilhamento em massa de tokens/credenciais de autenticação
  • Houve surpresa pelo fato de alguém conseguir exportar mensagens do Teams a partir do Teams
  • A exposição de dados continuou por dois anos e foi corrigida há dois meses
  • Alguns comentaristas não gostam do sistema de gerenciamento de chaves do Azure e sugerem que seria melhor ter chaves nomeadas ilimitadas para cada contêiner
  • O incidente parece demonstrar a dificuldade da segurança em nuvem, em que um ou dois erros podem expor terabytes de dados