Vazamento de informações sensíveis: banco de dados da DeepSeek ficou exposto com registros de chat incluídos

(wiz.io)

1 pontos por GN⁺ 2025-01-30 | Ainda não há comentários. | Compartilhar no WhatsApp

Durante uma verificação da superfície de ataque externa da DeepSeek, foi encontrado um banco de dados ClickHouse aberto sem autenticação, e a DeepSeek bloqueou imediatamente a exposição após ser avisada
Os pontos expostos eram as portas 8123 e 9000 em oauth2callback.deepseek.com e dev.deepseek.com, e era possível controlar todo o banco de dados e acessar dados internos a partir do exterior
A tabela log_stream continha mais de 1 milhão de logs, incluindo em texto simples registros de chat, API Keys, detalhes de backend e metadados operacionais desde 6 de janeiro de 2025
Pela rota /play da interface HTTP do ClickHouse, era possível executar consultas SQL arbitrárias no navegador, mas a Wiz Research limitou o escopo da análise ao nível de enumeração, de acordo com práticas éticas de pesquisa
Na adoção rápida de serviços de IA, o risco imediato pode surgir não apenas do próprio modelo, mas também de problemas básicos de segurança de infraestrutura, como a exposição externa acidental de bancos de dados

Banco de dados ClickHouse da DeepSeek aberto sem autenticação

A Wiz Research identificou um banco de dados ClickHouse publicamente acessível pertencente à DeepSeek
O banco de dados podia ser acessado sem autenticação e estava em um estado que permitia não só visualizar dados internos, mas também controlar completamente as operações do banco
As informações expostas incluíam registros de chat, API Keys, detalhes de backend, fluxos de logs e detalhes operacionais
A Wiz Research reportou imediatamente o problema à DeepSeek, e a DeepSeek bloqueou rapidamente a exposição

A DeepSeek é uma startup chinesa de IA que recentemente recebeu grande atenção com o modelo de raciocínio DeepSeek-R1
- O DeepSeek-R1 é descrito como competitivo em desempenho com sistemas líderes de IA, como o o1 da OpenAI
- Eficiência e bom custo-benefício são tratados como suas principais características
A Wiz Research investigou domínios públicos para avaliar a superfície de ataque externa da DeepSeek
Por meio de enumeração passiva e ativa de subdomínios, foram identificados cerca de 30 subdomínios expostos à internet
- A maioria parecia, a princípio, não representar uma exposição de alto risco, como interfaces de chatbot, páginas de status e documentação de API
Ao ir além das portas HTTP padrão 80/443, foi confirmado que as portas 8123 e 9000 estavam abertas
- Os hosts de destino eram oauth2callback.deepseek.com e dev.deepseek.com

As portas identificadas levavam a um banco de dados ClickHouse acessível sem autenticação
ClickHouse é um sistema de gerenciamento de banco de dados colunar de código aberto projetado para consultas analíticas rápidas em grandes conjuntos de dados
- Foi desenvolvido pela Yandex
- É amplamente usado em processamento de dados em tempo real, armazenamento de logs e análise de big data
Na interface HTTP do ClickHouse, a rota /play permitia executar consultas SQL arbitrárias diretamente no navegador
A consulta SHOW TABLES; retornou a lista de conjuntos de dados acessíveis, e entre eles a tabela log_stream continha logs especialmente sensíveis

A tabela log_stream continha mais de 1 milhão de entradas de log
As principais colunas e informações expostas eram as seguintes
- timestamp: logs desde 6 de janeiro de 2025
- span_name: referência a vários endpoints internos de API da DeepSeek
- string.values: logs em texto simples contendo registros de chat, API Keys, detalhes de backend e metadados operacionais
- _service: indica o serviço da DeepSeek que gerou o log
- _source: expõe a origem da solicitação de log, incluindo registros de chat, API Keys, estrutura de diretórios e logs de metadados do chatbot
Esse nível de acesso poderia representar um risco grave tanto para a segurança da própria DeepSeek quanto para os usuários finais
Um atacante poderia extrair logs sensíveis e mensagens reais de chat em texto simples e, dependendo da configuração do ClickHouse, também poderia exfiltrar diretamente senhas em texto simples, arquivos locais e informações proprietárias do servidor com consultas como SELECT * FROM file('filename')
A Wiz Research não executou consultas intrusivas além da enumeração para seguir práticas éticas de pesquisa

O risco de segurança imediato em aplicações de IA pode surgir menos do modelo em si e mais da infraestrutura e das ferramentas que o sustentam
Mesmo enquanto as discussões sobre segurança de IA se concentram em ameaças futuras, riscos básicos de segurança, como a exposição externa acidental de bancos de dados, devem continuar sendo prioridade máxima para as equipes de segurança
À medida que organizações adotam rapidamente ferramentas e serviços de IA de várias startups e fornecedores, aumenta o número de casos em que dados sensíveis são confiados a essas empresas
A velocidade da adoção pode levar a negligenciar a segurança, por isso a proteção dos dados dos clientes deve ser uma prioridade
As equipes de segurança devem trabalhar em estreita colaboração com engenheiros de IA para garantir visibilidade sobre a arquitetura, as ferramentas e os modelos em uso, a fim de evitar exposição de dados
Empresas de IA estão crescendo rapidamente como provedoras de infraestrutura crítica sem os frameworks de segurança normalmente associados à adoção em larga escala, por isso são necessárias práticas de segurança proporcionais ao risco de lidar com dados sensíveis