- Os LLMs têm um problema estrutural de não conseguir separar código e dados, o que os torna vulneráveis a ataques de injeção de prompt
- Em especial, quando recebem ao mesmo tempo acesso a dados externos, leitura de segredos internos e permissão de comunicação externa, surge a chamada tríade letal (lethal trifecta), que pode levar a danos graves
- Engenheiros de IA precisam pensar como engenheiros mecânicos e, em vez de uma abordagem determinística, aceitar a incerteza de sistemas probabilísticos e trabalhar com margens de segurança
- Assim como engenheiros da era vitoriana deixavam folga com projetos superdimensionados para lidar com a incerteza dos materiais, sistemas de IA também precisam adotar limites de segurança, tolerância a risco e taxa de erro
- Assim como pontes no mundo físico têm limite de carga, chegou o momento de os sistemas de IA também terem normas com limites explícitos e margens de segurança
O problema de segurança intrínseco dos LLMs
- Grandes modelos de linguagem têm uma falha estrutural: não conseguem separar código de dados
- Por isso, são vulneráveis a ataques de injeção de prompt
- O sistema é enganado para seguir instruções que não deveria obedecer
- Em alguns casos, isso só produz resultados constrangedores, como fazer um agente de suporte ao cliente falar como um pirata
- Em outros, pode causar danos muito mais destrutivos
Tríade letal (Lethal Trifecta)
- O pior impacto acontece quando se forma a “tríade letal”
- Os três elementos são:
- permissão de acesso a dados não confiáveis
- capacidade de ler informações confidenciais importantes
- capacidade de se comunicar com o mundo externo
- Quando uma empresa tenta dar aos funcionários um assistente de IA poderoso e concede essas três capacidades ao mesmo tempo, problemas graves se tornam inevitáveis
- Não são apenas os engenheiros de IA: usuários comuns também precisam aprender a usar IA com segurança
- Instalar a combinação errada de apps pode criar acidentalmente esses três elementos
A necessidade de mudar a forma de pensar dos engenheiros de IA
Pensar como engenheiros mecânicos
- Melhor engenharia de IA é a primeira linha de defesa
- Engenheiros de IA devem pensar como engenheiros que constroem estruturas como pontes
- reconhecendo que um trabalho malfeito pode custar vidas
A lição da engenharia vitoriana
- As grandes obras da era vitoriana na Grã-Bretanha foram construídas por engenheiros que não podiam ter certeza das propriedades dos materiais
- Na época, o ferro muitas vezes tinha baixa qualidade por incompetência ou fraude
- Como resultado, os engenheiros optavam pela cautela e incorporavam redundância por meio de superdimensionamento
- O resultado foram obras-primas que resistiram por séculos
O problema atual do setor de segurança em IA
- Fornecedores de segurança para IA não pensam dessa forma
- A programação tradicional é determinística
- vulnerabilidades de segurança são tratadas como bugs a serem corrigidos
- uma vez corrigidas, desaparecem
- Engenheiros de IA se acostumaram com essa forma de pensar desde a formação
- por isso, agem como se mais dados de treinamento e prompts de sistema mais inteligentes fossem suficientes para resolver o problema
Uma abordagem adequada para sistemas probabilísticos
Os limites dos dados de treinamento e dos prompts
- Dados de treinamento e prompts inteligentes de fato reduzem o risco
- os modelos mais novos e mais inteligentes são melhores do que modelos antigos ou menores para detectar e recusar pedidos maliciosos
- Mas não conseguem eliminar totalmente o risco
- ao contrário da maior parte do software, os LLMs são probabilísticos
- a saída é determinada por uma escolha aleatória entre respostas possíveis
- por isso, uma abordagem de segurança determinística é inadequada
Imitar a engenharia do mundo físico
- Uma forma melhor é imitar os engenheiros do mundo físico
- Aprender a trabalhar com sistemas imprevisíveis
- em vez de lutar contra sistemas temperamentais que não podem ser garantidos de funcionar como desejado, trabalhar junto com eles
- Introduzir margens de segurança, tolerância a risco e taxa de erro para lidar com a imprevisibilidade com mais tranquilidade
Estratégia de superdimensionamento para a era da IA
- Usar modelos mais poderosos do que o estritamente necessário
- reduzindo o risco de serem enganados a se comportar de forma inadequada
- Impor limites no número de consultas que um LLM pode receber de fontes externas
- ajustando isso ao risco de dano causado por consultas maliciosas
- Dar ênfase a falhas seguras
- se um sistema de IA precisa acessar segredos, deve-se evitar entregar a ele as chaves do reino
A necessidade de definir limites de segurança
- No mundo físico, pontes têm limite de carga
- mesmo que isso nem sempre seja mostrado claramente aos motoristas, ele existe
- o ponto importante é que esses limites deixam margem suficiente dentro da faixa real de tolerância que os cálculos indicam que a ponte suportaria
- Agora é a vez de o mundo virtual dos sistemas de IA passar a ter algo semelhante
- É essencial projetar sistemas com limites claros de segurança e margens de folga
1 comentários
Comentário do Hacker News