Se não dá para impedir prompt injection? Os 3 princípios de design propostos pela Meta
(aisparkup.com)Simon Willison publicou uma análise de dois estudos recentes sobre prompt injection.
Os ataques de prompt injection em IA são difíceis de bloquear completamente com as tecnologias de defesa atuais. Reconhecendo isso, a Meta propõe minimizar os riscos por meio de um princípio de arquitetura de sistemas chamado "Agents Rule of Two".
Principais pontos:
- Riscos e vulnerabilidades: invasores podem inserir instruções maliciosas na IA para provocar vazamento de dados pessoais ou phishing. O texto destaca resultados de pesquisa em que 12 sistemas de defesa foram burlados em mais de 90%.
- Princípio Rule of Two: projetar agentes de IA para que tenham apenas 2 ao mesmo tempo entre as 3 propriedades a seguir (A, B, C).
- [A] processar entradas não confiáveis
- [B] acessar sistemas sensíveis/dados pessoais
- [C] alterar estado ou se comunicar externamente
- Ex.: um bot de e-mail pode ter A (entrada) + C (comunicação), mas B (dados pessoais) é proibido.
- Abordagem realista: reduzir o risco por design, em vez de buscar uma defesa perfeita.
Conclusão: como prompt injection é inevitável, reprojete sistemas de IA com princípios como o Rule of Two. A proposta é vista como uma alternativa prática.
5 comentários
Lendo a sua tradução, realmente parece que foi prompt injection mesmo.
"Especialista em segurança de IA Simon Willison" <= errado
Simon Willison é um famoso desenvolvedor web que criou o Django, além de desenvolver ferramentas para LLM, escrever muito sobre IA e também fazer muitas apresentações sobre o tema. Ele também demonstra bastante interesse em segurança de IA e publica muitos textos sobre isso. Por isso, no contexto deste texto, não acho muito errado chamá-lo de “especialista em segurança de IA”. Acho que ele tem conhecimento e visão de sobra também nessa área, então escrevi assim de propósito. (Ou seja, não foi uma injeção^^)
Resumindo, você está dizendo que deram esse título por conveniência na explicação? Na página
aboutdo blog até existe uma seção de IA, mas, mesmo assim, não me parece muito convincente que esse seja um feito tão principal dessa pessoa a ponto de terceiros lhe darem o título de especialista em segurança de IA.De qualquer forma, entendi o ponto principal.
Obrigado pelo ótimo artigo.
Obrigado pelo ótimo texto.
Parece ter sido projetado como a teoria CAP.