- Simon Willison publicou o vídeo, os slides e a transcrição da apresentação
- Prompt Injection = "um ataque contra aplicações construídas com base em modelos de IA" e "não um ataque contra o modelo de IA"
- Demonstrações de exemplos de injeção de tradução e de páginas que atacam o Bing em execução na barra lateral do Edge
- E se o meu assistente de IA passasse a obedecer comandos de outras pessoas? (por exemplo, um prompt instruindo a encaminhar um e-mail de redefinição de senha para algum lugar)
- Existem soluções para isso, como prompt begging, mas elas não funcionam muito bem
- Minha proposta é... não é excelente, mas talvez dê para mitigar um pouco com o padrão Dual Language Model
- Compor o assistente de IA com dois LLMs diferentes: Privileged LLM e Quarantined LLM
- Privileged LLM
- Pode acessar ferramentas
- Processa apenas entradas confiáveis
- Instrui o Quarantined LLM, mas não vê sua entrada nem sua saída
- Processa apenas por meio de tokens: "Summarize text $VAR1"
- "Display $SUMMARY2 to the User"
- Quarantined LLM
- Executa tarefas sobre entradas não confiáveis (como resumo)
- Não pode acessar mais nada
- Todas as entradas e saídas são consideradas contaminadas — nada é repassado diretamente ao Privileged LLM
- Prompt injection é uma vulnerabilidade de segurança muito grave; se você não a compreender, é impossível implementar formas de defesa
- Todas as aplicações construídas sobre modelos de linguagem são, em princípio, vulneráveis a esse problema
- Como ainda não existe uma solução para prompt injection, às vezes é preciso dizer "não" quando não for possível desenvolver a aplicação com segurança
- Como desenvolvedor, eu realmente não gosto de ser a pessoa que diz "isso é impossível", mas acho que neste caso isso é realmente importante
Ainda não há comentários.