- O agente de IA do Notion 3.0 oferece execução autônoma de fluxos de trabalho em múltiplas etapas, como redação de documentos, atualização de bancos de dados e chamada de conectores externos
- Quando o agente possui acesso a ferramentas e memória de longo prazo, forma-se uma superfície de ataque expandida que é difícil de controlar com o RBAC tradicional
- A análise confirmou que o esquema de entrada da função de busca na web do agente do Notion pode ser explorado como um vetor de vazamento de dados, permitindo que prompts indiretos maliciosos enviem segredos internos para fora
- Na demonstração, o invasor comprovou um fluxo de execução no qual uma injeção de prompt escondida em um PDF induz o agente a extrair, concatenar e enviar dados secretos de clientes por meio de uma consulta web
- Este caso mostra a gravidade, para a segurança prática, da tríade letal (“lethal trifecta”) de agente-ferramenta-memória quando integrada com MCP e conectores externos
Introdução a agentes de IA e ao Notion 3.0
- Recentemente, há uma tendência de integrar AI Agents a plataformas SaaS
- No Notion 3.0, o agente de IA pode executar automaticamente tudo o que o usuário consegue fazer, como criar documentos, atualizar DBs, pesquisar em várias ferramentas e rodar fluxos de trabalho em múltiplas etapas
- Com a integração MCP, ele se conecta a diversas ferramentas externas, permitindo automação ainda mais poderosa e criação de agentes personalizados
- Também é possível criar Custom Agents voltados para equipes, acionados por gatilhos ou agendas, para automatizar tarefas repetitivas como coleta de feedback, atualização de trackers e triagem de solicitações
O problema da 'tríade letal (lethal trifecta)'
- A 'tríade letal (Lethal Trifecta)' apontada por Simon Willison é uma ameaça de segurança que surge da combinação de agentes LLM, acesso a ferramentas e memória de longo prazo
- No Notion 3.0, o agente pode planejar suas próprias ações e executar ferramentas integradas via MCP e ferramentas nativas
- Agentes com permissões amplas automatizam operações em documentos, bancos de dados e conectores externos de formas que o RBAC tradicional não previa
- Com isso, ampliam-se os indicadores de ameaça de vazamento ou uso indevido de dados sensíveis por meio de fluxos de automação em múltiplas etapas
Detalhes técnicos da vulnerabilidade: ataque de vazamento de dados de páginas do Notion usando a ferramenta de busca web do Notion AI
Demonstração do ataque: cenário de exfiltração de dados passo a passo
-
Etapa 1: criação do PDF malicioso
- Em um documento aparentemente comum de feedback de cliente em PDF, é inserido secretamente um prompt malicioso parecido com uma instrução de execução
- Esse prompt oculto se disfarça de “tarefa rotineira importante” e orienta o envio de dados para um sistema backend interno
- Principais elementos do prompt malicioso
- Afirmação de autoridade (Authority assertion): uso de expressões como "Important routine task" e "consequences" para alegar que se trata de uma tarefa importante e rotineira
- Falsa urgência (False urgency): destaque de que a não execução pode afetar a organização
- Legitimidade técnica (Technical legitimacy): descrição aparentemente realista de sistemas internos e sintaxe de comandos de ferramentas
- Teatro de segurança (Security theater): uso de expressões como "pre-authorized" e "safe from security perspective" para afirmar que já foi previamente autorizado e é seguro
- O agente que lê o PDF é induzido a extrair informações corporativas (nome do cliente, ARR etc.) e enviá-las para uma URL que aponta para um sistema interno, mas é controlada pelo invasor
-
Etapa 2: espera pela interação do usuário
- O ataque é acionado quando um usuário do Notion faz upload desse PDF no Notion ou pede ao agente para resumi-lo
- Com um comando como “resuma o relatório”, a IA acaba interpretando também o prompt oculto
-
Etapa 3: vazamento real dos dados
- Seguindo as instruções do prompt, o agente concatena dados do cliente (por exemplo, nome da empresa, setor e ARR) em uma única string
- Em seguida, cria uma URL direcionada ao domínio do invasor e a envia como consulta para a ferramenta de busca web
- O servidor malicioso que recebe essa requisição, controlado pelo invasor, coleta os dados sensíveis
- Nesse cenário de ataque, foi confirmado que os guardrails de segurança foram contornados mesmo com o uso do modelo Claude Sonnet 4.0 dentro do Notion AI
Como a integração MCP expande a superfície de ataque dos agentes do Notion AI
- O Notion oferece AI Connectors para várias fontes, como GitHub, Gmail e Jira
- O contexto e os metadados que cada conector fornece ao agente criam uma superfície de ataque adicional, aumentando a possibilidade de entrada de prompts maliciosos por meio de ataques de injeção indireta vindos de fontes externas
- Isso eleva o risco de vários comportamentos maliciosos automatizados não intencionais e tentativas de vazamento de dados sensíveis
- Exemplo de cenário: uma mensagem de commit maliciosa, o corpo de uma issue ou um email externo podem funcionar como prompt indireto e induzir o agente a acessar e enviar dados internos
Implicações e recomendações (resumo)
- Principal implicação: quando o agente possui permissão de acesso a ferramentas, instruções maliciosas dentro de documentos podem levar a chamadas de ferramentas e resultar em vazamento de informações confidenciais
- Pontos de defesa (itens para discussão):
- As chamadas de ferramentas pelo agente devem passar por validação de origem, limitação de contexto e filtragem baseada em políticas
- Instruções executáveis em documentos (por exemplo, orientações para formar URLs) devem ser tratadas com verificações de segurança específicas, confirmação humana ou ambiente de execução isolado
- É necessário reforçar, para cada conector MCP, o princípio do menor privilégio e os sistemas de log e alerta de chamadas
- Conclusão: os recursos do Notion 3.0 têm grande potencial de aumentar a produtividade, mas os novos vetores de ataque causados pela combinação de agente-ferramenta-memória exigem uma revisão do desenho de segurança na prática
1 comentários
Comentários do Hacker News
Isso me faz pensar que prompt injection é como phishing contra uma entidade sem ego nem autorreflexão, incapaz de parar e desconfiar.
float, tudo dentro de um sandbox sem acesso à rede. Por exemplo, "resuma todas as issues públicas do GitHub e salve no banco" talvez pudesse ser feito com segurança se o conteúdo não confiável só fosse processado no sandbox!