O que é Prompt Injection

xguru · 2023-05-17T11:05:01+09:00

Simon Willison publicou o vídeo, os slides e a transcrição da apresentação Prompt Injection = "um ataque contra aplicações construídas com base em modelos de IA" e "não um ataque contra o modelo de IA" Demonstrações de exemplos de injeção de tradução e de páginas que atacam o Bing em execução na barra lateral do Edge E se o meu assistente de IA passasse a obedecer comandos de outras pessoas? (por exemplo, um prompt instruindo a encaminhar um e-mail de redefinição de senha para algum lugar) Existem soluções para isso, como prompt begging, mas elas não funcionam muito bem Minha proposta é... não é excelente, mas talvez dê para mitigar um pouco com o padrão Dual Language Model Compor o assistente de IA com dois LLMs diferentes: Privileged LLM e Quarantined LLM Privileged LLM Pode acessar ferramentas Processa apenas entradas confiáveis Instrui o Quarantined LLM, mas não vê sua entrada nem sua saída Processa apenas por meio de tokens: "Summarize text $VAR1" "Display $SUMMARY2 to the User" Quarantined LLM Executa tarefas sobre entradas não confiáveis (como resumo) Não pode acessar mais nada Todas as entradas e saídas são consideradas contaminadas — nada é repassado diretamente ao Privileged LLM Prompt injection é uma vulnerabilidade de segurança muito grave; se você não a compreender, é impossível implementar formas de defesa Todas as aplicações construídas sobre modelos de linguagem são, em princípio, vulneráveis a esse problema Como ainda não existe uma solução para prompt injection, às vezes é preciso dizer "não" quando não for possível desenvolver a aplicação com segurança Como desenvolvedor, eu realmente não gosto de ser a pessoa que diz "isso é impossível", mas acho que neste caso isso é realmente importante

(simonwillison.net)

21 pontos por xguru 2023-05-17 | Ainda não há comentários. | Compartilhar no WhatsApp

Simon Willison publicou o vídeo, os slides e a transcrição da apresentação
Prompt Injection = "um ataque contra aplicações construídas com base em modelos de IA" e "não um ataque contra o modelo de IA"
Demonstrações de exemplos de injeção de tradução e de páginas que atacam o Bing em execução na barra lateral do Edge
E se o meu assistente de IA passasse a obedecer comandos de outras pessoas? (por exemplo, um prompt instruindo a encaminhar um e-mail de redefinição de senha para algum lugar)
Existem soluções para isso, como prompt begging, mas elas não funcionam muito bem
Minha proposta é... não é excelente, mas talvez dê para mitigar um pouco com o padrão Dual Language Model
- Compor o assistente de IA com dois LLMs diferentes: Privileged LLM e Quarantined LLM
- Privileged LLM
  - Pode acessar ferramentas
  - Processa apenas entradas confiáveis
  - Instrui o Quarantined LLM, mas não vê sua entrada nem sua saída
  - Processa apenas por meio de tokens: "Summarize text $VAR1"
  - "Display $SUMMARY2 to the User"
- Quarantined LLM
  - Executa tarefas sobre entradas não confiáveis (como resumo)
  - Não pode acessar mais nada
  - Todas as entradas e saídas são consideradas contaminadas — nada é repassado diretamente ao Privileged LLM
Prompt injection é uma vulnerabilidade de segurança muito grave; se você não a compreender, é impossível implementar formas de defesa
Todas as aplicações construídas sobre modelos de linguagem são, em princípio, vulneráveis a esse problema
Como ainda não existe uma solução para prompt injection, às vezes é preciso dizer "não" quando não for possível desenvolver a aplicação com segurança
Como desenvolvedor, eu realmente não gosto de ser a pessoa que diz "isso é impossível", mas acho que neste caso isso é realmente importante

O que é Prompt Injection

Leituras relacionadas

Ainda não há comentários.