Após engenharia reversa de uma ferramenta de IA jurídica de US$ 1 bilhão, mais de 100 mil arquivos confidenciais foram expostos

(alexschapiro.com)

2 pontos por GN⁺ 2025-12-04 | 1 comentários | Compartilhar no WhatsApp

Na análise da API da plataforma de IA jurídica Filevine, foi identificada uma falha crítica que concedia acesso total de administrador sem autenticação.
O pesquisador encontrou, via subdomain enumeration, o subdomínio margolis.filevine.com e confirmou o endpoint da API da AWS para enviar uma requisição de teste.
Uma simples requisição POST retornou resposta sem token de autenticação e ela continha um token de administrador com acesso total ao sistema de arquivos do Box.
Por meio desse token foi possível encontrar cerca de 100 mil documentos “confidential”, incluindo dados extremamente sensíveis de saúde, jurídico e folha de pagamento.
A Filevine respondeu e corrigiu imediatamente após o relato; o caso também evidencia a importância da governança de segurança em serviços jurídicos com IA.

Descoberta e cronograma de divulgação da vulnerabilidade

O pesquisador reportou a vulnerabilidade por e-mail à equipe de segurança da Filevine em 27 de outubro de 2025.
- Em 4 de novembro de 2025, a Filevine reconheceu o problema e respondeu com um plano de correção rápida.
- Em 20 de novembro de 2025, o pesquisador verificou a aplicação do patch e informou a intenção de divulgar no blog.
- Em 21 de novembro de 2025, a Filevine confirmou que a correção foi concluída e agradeceu.
- Em 3 de dezembro de 2025, foi publicado o post técnico.
A Filevine demonstrou resposta rápida e profissional durante todo o processo e foi vista como um exemplo de divulgação responsável de segurança.

Contexto da Filevine e do mercado de IA jurídica

A Filevine é uma plataforma de IA jurídica avaliada em mais de US$ 1 bilhão, com rápido crescimento.
Escritórios de advocacia carregam nesse ambiente dados de altíssima confidencialidade para operar seus fluxos de trabalho.
O pesquisador acabou revisando a estrutura de segurança de dados da Filevine com base em sua experiência anterior em um projeto com a Yale Law School.

Processo de engenharia reversa

Devido às restrições de acesso da Filevine, o pesquisador usou a técnica de subdomain enumeration para localizar um ambiente de demonstração público.
Após descobrir o subdomínio margolis.filevine.com, viu que a página não carregava e, então, analisou as requisições de rede via Ferramentas de Desenvolvimento do Chrome.
No JS foi localizado POST await fetch(${BOX_SERVICE}/recommend), confirmando que a variável BOX_SERVICE estava definida para um endpoint de API da AWS.
Ao enviar uma requisição no formato {"projectName":"Very sensitive Project"} para /prod/recommend, a resposta foi retornada sem autenticação.

Exposição de token administrador e impacto

A resposta continha um boxToken com privilégios totais de administrador da API do Box.
Esse token dá acesso à totalidade do sistema de arquivos interno do Box de um escritório de advocacia, permitindo acesso a:
- documentos, logs, informações de usuários e quaisquer outros dados.
Na busca pelo termo “confidential”, confirmaram-se aproximadamente 100 mil resultados.
O pesquisador interrompeu imediatamente os testes e reportou a vulnerabilidade à Filevine.
Se um invasor malicioso explorasse esse token, documentos protegidos pela HIPAA, ordens judiciais e dados internos de folha de pagamento poderiam ter sido vazados.

Lições de segurança

Em meio à corrida pela adoção de IA, as empresas precisam reforçar os mecanismos de proteção de dados.
Especialmente nos serviços de IA de setores de alta confidencialidade, como jurídico e saúde, os processos de validação de segurança devem ser rigorosos.
Este caso evidencia com clareza o risco causado por falhas de autenticação e controle de privilégios em um SaaS baseado em IA.

1 comentários

GN⁺ 2025-12-04

Comentário no Hacker News

Sempre me surpreende o quanto demora para classificar e corrigir uma falha de segurança tão óbvia
Foi divulgada em 27 de outubro e só confirmaram por e-mail em 4 de novembro; nesse meio-tempo, o sistema inteiro de arquivos dos clientes ficou exposto
A correção de fato provavelmente teria sido um patch de menos de 1 hora, e mesmo com testes de QA isso não deveria levar tanto tempo
Fico pensando se ninguém olha o e-mail de security@, ou se a pessoa estava de férias, ou se há tanto spam que não conseguem identificar um problema real
- Na minha experiência, esse tipo de atraso acontece por causa de problemas de estrutura organizacional e gestão de projetos
  A equipe de segurança cuida do e-mail security@, mas a equipe que realmente corrige o bug é outra, então o repasse vira algo complicado
  Só para descobrir qual é a equipe dona do código podem ir semanas, e como o cronograma está lotado é difícil elevar a prioridade
  Se ainda precisar de aprovação do jurídico, a resposta atrasa mais ainda
  Empresas inteligentes dão à equipe de segurança poder de resposta emergencial, mas se isso for abusado também gera desgaste interno
- Na maioria dos casos, não é que “ninguém olha a caixa de e-mail de segurança”, e sim que uma única pessoa que entende daquela parte está tocando outras 12 coisas ao mesmo tempo
  O patch de segurança é uma correção de 1 hora, mas leva 2 semanas por causa das aprovações internas e da busca pelo dono do código
  No fim, o problema real é a entropia da organização
- Hoje em dia a caixa de e-mail de security@ recebe muitos relatórios falsos
  LLMs também conseguem gerar relatórios de vulnerabilidade convincentes, o que às vezes faz especialistas perderem horas
  Por isso, algumas empresas adotam a política de revisar esses e-mails apenas em horário comercial
- Na prática há bastante spam, mas são só algumas mensagens por dia, então isso não explica não corrigir imediatamente uma vulnerabilidade tão grave
  Como foi dito, o mais provável é que o responsável estivesse de férias
- No centro global de resposta em que eu trabalho há 600 pessoas e 26.000 questões prioritárias
  Quanto mais complexo o sistema fica, mais os problemas aumentam em vez de diminuir
  No fim, trabalhamos dentro da ilusão de que “damos conta”
Se essa empresa recebeu uma avaliação de US$ 1 bilhão, uma falha básica como essa poderia facilmente ter causado um prejuízo desse tamanho
Se uma pessoa mal-intencionada tivesse encontrado isso, poderia ter sido irreversível
Todos os dados dos clientes poderiam ter vazado, então quem encontrou a falha deveria ter sido recompensado
- Exato. Uma vulnerabilidade dessas poderia ter sido vendida para um grupo de ransomware por centenas de milhares de dólares
  Depois viriam vazamento de dados, extorsão, processos e multas
  É por isso que alguns hackers acabam indo para o mercado cinza em vez de atuar como white hats
- Deviam mesmo ter dado uma grande recompensa
Trabalho em uma empresa financeira, e todo mundo estranha por que confiam dados de clientes ao SaaS X, mas não podem enviar documentos fiscais para o AI SaaS Y
Na minha opinião, o setor de IA hoje parece o Velho Oeste (Wild West)
Está avançando rápido demais, com procedimentos de segurança sendo pulados
Este caso mostra isso muito bem
- O FileVine é uma ferramenta jurídica com IA, mas este problema não tem relação com a IA em si
  Parece simplesmente um problema de integração com a API do Box
- Só para contextualizar, essa empresa foi fundada em 2014 e só recentemente adicionou recursos com LLM
  Link para a matéria da Reuters
- Se o SaaS X oferece recursos de IAM e aplica suas próprias políticas de acesso, ele é relativamente mais seguro
  Já se o SaaS Y só diz “deixe seus dados com a gente que está tudo seguro”, isso é suspeito
- Mas antes de tudo, é preciso perguntar por que confiaram no SaaS X em primeiro lugar
- O interessante é que essa vulnerabilidade não tem absolutamente nada a ver com IA; é um problema que poderia acontecer em qualquer empresa SaaS
Este caso é o choque entre a “cultura startup de conectar APIs rapidamente” e os “setores jurídico e de saúde, onde um vazamento de dados pode arruinar vidas”
O problema tem cara de padrão de bug da década de 2010, mas está coberto por embalagem de marketing de IA de 2025
Ao centralizar documentos para treinar modelos de IA, o alcance do dano em caso de incidente fica muito maior
Nas vendas, é preciso facilitar o acesso aos dados para fechar contratos, então princípios como privilégio mínimo acabam ficando para depois
No fim, os advogados acham que estão comprando um “assistente de IA”, mas na prática estão concedendo acesso externo à memória institucional inteira
A verdadeira pergunta é: quantos desses sistemas passariam de um teste sério de red team?
- É até meio engraçado. A empresa faz todo um teatro de cibersegurança e, ao mesmo tempo, cria um wormhole de LLM que contorna tudo
  O problema é que executivos não técnicos não entendem IA e só repetem marketing
  Ainda assim, gostei de ter usado duas metáforas espaciais
A equipe da Filevine foi profissional e ágil durante todo o processo de divulgação
Reconheceu a gravidade do problema, corrigiu a falha e se comunicou com transparência
Por isso, acho que em casos assim não seria necessário divulgar o nome da empresa
Se ela resolveu o problema, não vejo necessidade de expô-la ao ridículo
- Mas em um processo de divulgação responsável, é comum revelar o nome da empresa
  Assim, o setor consegue saber quais empresas levam os relatos a sério
- Divulgação ética significa que os dois lados publicam juntos os detalhes técnicos
  Isso vira um bom exemplo tanto para hackers quanto para empresas
- Esconder o erro faz perder transparência e confiança
- Num caso grave como este, os clientes precisam saber
  Além disso, outras empresas de AI SaaS podem ler isso e evitar cometer o mesmo erro
Procedimentos de certificação de segurança como SOC2 e HIPAA parecem uma espécie de “teatro de segurança”
O que realmente importa é ignorado, enquanto sobram capturas de tela formais e trabalho documental
- A SemiAnalysis avaliou essas certificações como tão importantes quanto uma certificação da FAA, mas acabou sendo hackeada por uma simples falha de controles básicos de segurança
  Link para o texto relacionado
  No fim, isso não passa de uma caixinha marcada comprada com dinheiro, não de segurança real
Software de segurança ainda tem muito a melhorar em usabilidade e complexidade
Quando trabalhei no Google e na Meta, os sistemas de ACL eram tão complexos que levei 4 anos para entendê-los
Empresas não técnicas jamais conseguiriam usar sistemas assim
Isso até me dá vontade de criar uma startup para simplificar a segurança
Parece um problema bem mais difícil do que IA
Ainda bem que essa empresa permitiu a publicação do post no blog
Eu também já encontrei uma grande vulnerabilidade antes, mas a empresa impediu a divulgação
- “Precisa mesmo de permissão?” Basta fazer a divulgação responsável
- Por que o controle da divulgação estaria com a empresa? Se o processo de reporte foi seguido, depois disso a pessoa deveria ser livre para escrever
Este ataque não foi nada sofisticado
A Filevine diz no site que faz testes de invasão, então é difícil acreditar que deixaram isso passar
Parece que confundiram bug bounty com teste de invasão
Realmente não há desculpa
Hoje existem startups demais de “healthcare + IA”, e eu me preocupo que em poucos meses estoure um grande vazamento de dados HIPAA
Dá para ver casos relacionados nesta thread também

Após engenharia reversa de uma ferramenta de IA jurídica de US$ 1 bilhão, mais de 100 mil arquivos confidenciais foram expostos

Descoberta e cronograma de divulgação da vulnerabilidade

Contexto da Filevine e do mercado de IA jurídica

Processo de engenharia reversa

Exposição de token administrador e impacto

Lições de segurança

Leituras relacionadas

1 comentários

Comentário no Hacker News