1 pontos por GN⁺ 2025-01-30 | 1 comentários | Compartilhar no WhatsApp
  • Resumo

    • A Wiz Research descobriu um banco de dados ClickHouse da DeepSeek acessível publicamente. Esse banco de dados permitia controle total sobre as operações do banco, incluindo a capacidade de acessar dados internos. Os dados expostos incluíam históricos de chat, chaves secretas, detalhes de backend e outras informações altamente sensíveis. A equipe da Wiz Research divulgou imediatamente o problema de forma responsável à DeepSeek, e a DeepSeek protegeu rapidamente a exposição.
  • Principais pontos

    • A DeepSeek é uma startup chinesa de IA que vem chamando atenção, especialmente por causa do modelo de raciocínio DeepSeek-R1. Esse modelo compete em desempenho com sistemas de IA líderes, como o o1 da OpenAI, destacando-se em custo-benefício e eficiência.
    • A equipe da Wiz Research iniciou a investigação para avaliar a postura de segurança externa da DeepSeek e identificar vulnerabilidades potenciais. Em poucos minutos, encontrou um banco de dados ClickHouse acessível publicamente e ligado à DeepSeek, totalmente aberto e sem autenticação, expondo dados sensíveis.
    • Esse banco de dados continha históricos de chat, dados de backend e informações sensíveis, incluindo streams de logs, segredos de API e detalhes operacionais. Mais grave ainda, essa exposição permitia controle total do banco de dados dentro do ambiente da DeepSeek e potencial elevação de privilégios, sem autenticação nem mecanismos de defesa.
  • Como ocorreu a exposição

    • O processo começou com a avaliação dos domínios da DeepSeek acessíveis publicamente. Ao mapear a superfície de ataque externa, foram identificados cerca de 30 subdomínios expostos na internet. A maioria hospedava elementos como interfaces de chatbot, páginas de status e documentação de API, e inicialmente não indicava uma exposição de alto risco.
    • No entanto, ao expandir a busca além das portas HTTP padrão (80/443), foram detectadas duas portas incomuns e abertas (8123 & 9000). Essas portas levavam a um banco de dados ClickHouse exposto publicamente e acessível sem autenticação.
    • O ClickHouse é um sistema de gerenciamento de banco de dados colunar open source projetado para consultas analíticas rápidas em grandes conjuntos de dados. Desenvolvido pela Yandex, é amplamente usado para processamento de dados em tempo real, armazenamento de logs e análise de big data.
    • Aproveitando a interface HTTP do ClickHouse, foi possível acessar o caminho /play, o que permitia executar consultas SQL arbitrárias diretamente pelo navegador. Uma consulta simples SHOW TABLES; retornou a lista completa dos conjuntos de dados acessíveis.
    • A tabela log_stream era particularmente notável e continha mais de 1 milhão de entradas de log. Essa tabela incluía logs em texto puro, como históricos de chat, chaves de API, detalhes de backend e metadados operacionais.
  • Principais implicações

    • A rápida adoção de serviços de IA é inerentemente arriscada se não vier acompanhada de segurança. Essa exposição destaca o fato de que os riscos imediatos de segurança em aplicações de IA vêm da infraestrutura e das ferramentas que as sustentam.
    • Embora grande parte da atenção em segurança de IA esteja voltada para ameaças futuras, o risco real muitas vezes vem de riscos básicos. Riscos fundamentais de segurança, como a exposição externa de bancos de dados, devem ser prioridade máxima para as equipes de segurança.
    • As organizações que adotam ferramentas e serviços de IA devem lembrar que estão confiando dados sensíveis a essas empresas. A velocidade de adoção pode levar à negligência com a segurança, mas a proteção dos dados dos clientes deve ser prioridade absoluta.
    • As equipes de segurança devem trabalhar em estreita colaboração com engenheiros de IA para obter visibilidade sobre a arquitetura, as ferramentas e os modelos em uso, protegendo os dados e evitando exposições.
  • Conclusão

    • A IA é uma tecnologia que está sendo adotada mais rapidamente do que nunca. Muitas empresas de IA cresceram rapidamente como fornecedoras de infraestrutura crítica sem frameworks de segurança adequados. À medida que a IA se integra profundamente aos negócios no mundo todo, é necessário reconhecer os riscos de lidar com dados sensíveis e aplicar as práticas de segurança exigidas de provedores de nuvem pública e grandes fornecedores de infraestrutura.

1 comentários

 
GN⁺ 2025-01-30
Comentários do Hacker News
  • Percebe-se uma ignorância sobre engenharia de software fora do mundo anglófono, com questionamentos sobre por que o esquema do banco de dados e os logs estão em inglês

    • Fica a dúvida se desenvolvedores do mundo todo precisam aprender inglês ou se existe algum processo de tradução
  • Surpreende a hostilidade nos comentários, dado que o DeepSeek causou perdas financeiras a muitos investidores de varejo dos EUA

    • Há muita raiva pelo fato de quase 70 bilhões de dólares terem desaparecido do valor das ações da NVidia
  • Acharam irresponsável divulgar diretamente a URL e a porta

    • Não que isso defenda as práticas inadequadas do DeepSeek, mas a ação ainda assim foi considerada irresponsável
  • Houve muitas tentativas de culpar o DeepSeek

  • A linha do tempo do DeepSeek em relação a hacking ético e divulgação responsável não foi bem discutida

  • É melhor executar o modelo localmente ou usar modelos remotos de chat sem estado, como o AWS Bedrock

  • Há pontos interessantes sobre a infraestrutura de desenvolvimento e o banco de dados de observabilidade

    • É inevitável que os logs incluam dados de chat
    • A captura de tela do prompt de construção de foguetes parece indicar que o DeepSeek forneceu dados de treinamento para que esses prompts não fossem concluídos
  • O ClickHouse exposto lembra os casos antigos de Elasticsearch exposto

  • Há curiosidade sobre se o DeepSeek tem um programa de bug bounty

    • Explorar e acessar sistemas sem autorização pode gerar problemas legais
    • O ideal é participar de um programa de bug bounty ou colaborar diretamente com a empresa para obter autorização antes de explorar o sistema
  • Isso combina com a visão de que o DeepSeek é um projeto paralelo de quants

    • Parece um erro de quem não está acostumado a implantar aplicações cliente externas