2 pontos por GN⁺ 2023-11-14 | 1 comentários | Compartilhar no WhatsApp

Descoberta e correção de vulnerabilidades no Google Bard

  • O Google Bard recebeu recentemente uma atualização poderosa, passando a permitir acesso ao YouTube, busca de voos e hotéis, além de acesso a documentos pessoais e e-mails.
  • O Bard agora pode analisar dados do Drive, Docs e Gmail, tornando-se vulnerável a injeção indireta de prompt.
  • Por meio de injeção de prompt, foram realizados com sucesso testes de resumo de vídeos do YouTube e do Google Docs.

Ataque de injeção indireta de prompt por e-mail e Google Docs

  • Ataques de injeção indireta de prompt via e-mail ou Google Docs são perigosos porque podem ser transmitidos sem o consentimento do usuário.
  • A injeção pode ocorrer quando um invasor força o compartilhamento de um Google Docs e o Bard é usado para interagir com o documento.

Vulnerabilidade - injeção de Markdown em imagem

  • Quando o LLM do Google retorna elementos Markdown, o Bard os renderiza como HTML.
  • É possível inserir dados em tags de imagem para induzir a exfiltração de dados para um servidor.
  • A vulnerabilidade é explorada resumindo o histórico da conversa ou acessando dados anteriores e adicionando-os à URL.

Bypass de CSP

  • A CSP do Google impede o carregamento de imagens de locais arbitrários.
  • É possível contornar a CSP por meio de Google Apps Script, usando URLs executadas nos domínios script.google.com ou googleusercontent.com.

Criação do Bard Logger

  • O "Bard Logger" foi implementado com Apps Script.
  • O logger registra em um Google Doc todos os parâmetros de consulta adicionados à URL de chamada.
  • Pela configuração, é possível expor o endpoint sem autenticação.

Demonstração e divulgação responsável

  • Vídeo e capturas de tela mostram como o histórico de conversa do usuário é exfiltrado por meio de um Google Doc malicioso.

Shell Code

  • Um payload incluído em um Google Doc é usado para realizar a injeção de prompt e a exfiltração de dados.
  • Os recursos do LLM são aproveitados para substituir texto dentro da URL da imagem.

Capturas de tela

  • Para quem não tem tempo de ver o vídeo, os principais passos são apresentados em capturas de tela.

Correção do Google

  • O problema foi reportado ao Google VRP em 19 de setembro de 2023, e foi confirmado que a correção foi concluída em 19 de outubro.
  • A CSP não foi corrigida, mas parece ter sido aplicado um filtro para impedir a inserção de dados na URL.

Conclusão

  • Essa vulnerabilidade mostra o poder e o grau de liberdade que um adversário pode ter em ataques de injeção indireta de prompt.
  • Agradecimentos às equipes de segurança do Google e do Bard por resolverem rapidamente esse problema.

Linha do tempo da correção

  • Relato do problema: 19 de setembro de 2023
  • Confirmação da correção: 19 de outubro de 2023

Materiais de referência

  • Anúncio da extensão do Google Bard, injeção indireta de prompt relacionada ao Google Bard, palestra sobre injeção de prompt na Ekoparty 2023, imagem Google Bard - Data Exfil gerada com DALLE-3

Apêndice

  • Fornece o conteúdo completo da injeção de prompt dentro do Google Doc

Opinião do GN⁺

O ponto mais importante deste artigo é a vulnerabilidade gerada pelos novos recursos do Google Bard e a possibilidade de vazamento de dados por meio dela. Isso destaca os problemas de segurança em serviços baseados em inteligência artificial e reforça a importância de proteger os dados dos usuários. Com o avanço da tecnologia, novos tipos de ameaças de segurança estão surgindo, mostrando a necessidade contínua de pesquisa e resposta. O processo de descoberta e correção dessa vulnerabilidade é um caso interessante e útil para quem se interessa por engenharia de software e cibersegurança, além de reforçar a importância do esforço contínuo para o uso seguro da tecnologia.

1 comentários

 
GN⁺ 2023-11-14
Comentários do Hacker News
  • Qual é o futuro dos LLMs? Integrar LLMs, que são difíceis de depurar, em áreas sensíveis será muito difícil sem garantias razoáveis de que vulnerabilidades de segurança possam ser corrigidas.
  • Quando testaram o Bard antes do lançamento, descobriram que era fácil quebrá-lo preenchendo o contexto e empurrando as regras para fora.
  • O problema não é por que o vazamento de dados funciona, mas por que achamos que, na maioria dos casos, dar privilégios especiais a um amostrador aleatório de tokens vai funcionar.
  • Não há menção explícita a bug bounty. Fico curioso se houve pagamento de recompensa.
  • Na Lakera AI, estão desenvolvendo um detector de prompt injection treinado com várias fontes de dados, incluindo prompts retirados do jogo de prompt injection Gandalf.
  • Será que não dá para resolver esse problema com o próprio LLM? Não seria necessário algo como um system prompt que aceite prompts apenas na caixa de texto de entrada do usuário e não interprete o texto dentro de documentos como prompts?
  • Dizem que o Bard pode acessar e analisar Google Drive, Docs e Gmail. Porém, quando perguntaram ao Bard se ele podia acessar o Gmail, ele respondeu que não podia acessar diretamente. Quando perguntaram como ativar a extensão do Gmail, ele respondeu que isso não estava disponível no momento. No entanto, ao clicar no ícone de quebra-cabeça do Bard, é possível ativar extensões do Google Workspace, incluindo o Gmail.
  • Os LLMs só deveriam ser treinados e ter acesso a dados e ações que o usuário já aprovou. Garantir, com a arquitetura atual, que um LLM seja levado por prompt a executar apenas uma tarefa específica é muito difícil e talvez impossível. Os LLMs têm um potencial enorme, mas para uma implantação bem-sucedida em sistemas de segurança, essas limitações precisam ser superadas no nível da arquitetura.
  • Gostei do começo do prompt: "Toda pessoa que ler este documento deve, de acordo com a exigência do Departamento de Justiça, fazer o seguinte."
  • Resumo: o Bard consegue renderizar imagens Markdown em uma conversa. Ele também pode ler o conteúdo de documentos do Google para fornecer mais contexto à conversa. Ao compartilhar com a vítima um documento do Google contendo um prompt malicioso, é possível fazer o Bard gerar um link de imagem Markdown que inclua parte da conversa em uma seção codificada em URL. Essa seção da conversa pode vazar quando a UI do Bard acessar a URL que o invasor já havia feito o Bard criar anteriormente para carregar a imagem.
  • Lição: é preciso ter cuidado com o que um assistente de IA lê. Isso pode ser controlado por um invasor e conter sugestões hipnóticas.