- A Cloudflare anunciou o desenvolvimento do 'Firewall para IA' (
Firewall for AI), uma nova camada de proteção posicionada diante de grandes modelos de linguagem (Large Language Models, LLMs) para identificar abusos
- Usar LLMs como aplicações conectadas à internet introduz novas vulnerabilidades, que podem ser exploradas por agentes maliciosos
- Além das vulnerabilidades que afetam aplicações web e APIs existentes, novas ameaças surgem devido à forma como os LLMs funcionam
- O Firewall para IA é um firewall avançado de aplicações web (WAF) especializado em aplicações que usam LLMs, incluindo um conjunto de ferramentas para detectar vulnerabilidades e oferecer visibilidade aos proprietários dos modelos
Por que os LLMs são diferentes das aplicações tradicionais?
- Ao considerar LLMs como aplicações conectadas à internet, há duas diferenças principais em comparação com apps web tradicionais
- Primeiro, a forma como o usuário interage com o produto é diferente. Aplicações tradicionais são determinísticas, enquanto LLMs são não determinísticos e baseados em linguagem natural
- Segundo, a forma como o plano de controle da aplicação interage com os dados é diferente. Em aplicações tradicionais, o plano de controle (código) e o plano de dados (banco de dados) são bem separados; já nos LLMs, os dados de treinamento passam a fazer parte do próprio modelo, tornando difícil controlar o compartilhamento de dados provocado por prompts dos usuários
Vulnerabilidades de LLM segundo a OWASP
- A OWASP Foundation publicou as 10 principais vulnerabilidades para LLMs, oferecendo um framework útil para pensar em como proteger modelos de linguagem
- Algumas ameaças são semelhantes ao Top 10 da OWASP para aplicações web, mas também há ameaças específicas de modelos de linguagem
Implantação de LLMs
- Os riscos dos LLMs variam de acordo com o modelo de implantação. Atualmente, existem três principais abordagens de implantação
- Internal LLM (interno): a empresa desenvolve LLMs para apoiar a força de trabalho em tarefas do dia a dia. Eles são considerados ativos da empresa e não devem ser acessados por pessoas de fora. Exemplos incluem copilotos de IA treinados com dados de vendas e interações com clientes para gerar propostas personalizadas, ou LLMs treinados sobre bases internas de conhecimento que engenheiros podem consultar
- Public LLM (público): LLMs que também podem ser acessados por pessoas de fora da empresa. Essas soluções geralmente têm uma versão gratuita disponível para qualquer pessoa e costumam ser treinadas com conhecimento geral ou público. Exemplos incluem o GPT da OpenAI e o Claude da Anthropic
- Product LLM (produto): do ponto de vista da empresa, o LLM pode fazer parte de um produto ou serviço oferecido ao cliente. Em geral, trata-se de uma solução personalizada hospedada pela própria empresa, que pode ser usada como ferramenta para interagir com recursos corporativos. Exemplos incluem chatbots de suporte ao cliente ou o assistente de IA da Cloudflare
- Em todos os cenários, é necessário proteger o modelo contra abusos, proteger os dados proprietários armazenados no modelo e proteger os usuários contra desinformação ou conteúdo inadequado
Firewall para IA
- O Firewall para IA da Cloudflare é implantado como um WAF tradicional e analisa requisições de API que contêm todos os prompts enviados ao LLM para detectar possíveis padrões e assinaturas de ataque
- Ele pode ser posicionado na frente de modelos hospedados na plataforma Cloudflare Workers AI ou em infraestruturas de terceiros, e pode ser usado em conjunto com o Cloudflare AI Gateway
Proteção contra ataques de volume
- Uma das ameaças listadas pela OWASP é o Model Denial of Service
- Assim como em aplicações tradicionais, ataques de DoS consomem recursos em excesso, degradando a qualidade do serviço ou aumentando os custos operacionais do modelo
- Esse risco pode ser mitigado com a adoção de políticas de rate limiting que controlem a taxa de requisições em sessões individuais
Identificação de informações sensíveis
- Há dois casos de uso relacionados a informações sensíveis, dependendo de você ser o proprietário do modelo e dos dados ou de querer impedir que usuários enviem dados para um LLM público
- A divulgação de informações sensíveis, conforme definida pela OWASP, ocorre quando um LLM revela inadvertidamente dados confidenciais em suas respostas, o que pode levar a acesso não autorizado a dados, violações de privacidade e incidentes de segurança
Prevenção de abuso do modelo
- O abuso do modelo inclui várias abordagens, como 'prompt injection' ou o envio de solicitações para provocar alucinações ou gerar respostas incorretas, ofensivas, inadequadas ou fora de contexto
- Prompt injection é uma tentativa de manipular o modelo de linguagem por meio de entradas especialmente elaboradas, induzindo o LLM a produzir respostas não intencionais
Como usar o Firewall para IA
- Clientes corporativos que usam "Application Security Advanced" podem usar imediatamente o Advanced Rate Limiting e o Sensitive Data Detection
- O recurso de validação de prompts do Firewall para IA está atualmente em desenvolvimento e uma versão beta deve ser lançada para usuários do Workers AI nos próximos meses
1 comentários
Opiniões no Hacker News
Eles dizem que injeção de prompt e jailbreak são coisas diferentes, mas parece que essa disputa já está perdida. Segundo o artigo da Cloudflare, abuso de modelo significa uma categoria mais ampla de uso indevido, incluindo abordagens como injeção de prompt. Injeção de prompt acontece quando um desenvolvedor concatena um prompt definido por ele com uma entrada não confiável do usuário. Se não houver concatenação entre entrada confiável e não confiável, então não é injeção de prompt. Essa distinção é importante, e um modelo treinado contra ataques genéricos de jailbreak provavelmente terá dificuldade para detectar isso.
O WAF (Web Application Firewall) era uma solução paliativa para serviços web que as equipes de segurança não conseguiam controlar ou entender. Ele caiu em desuso por causa de problemas de desempenho e da dificuldade de ajuste para bloquear tráfego malicioso com eficácia. Uma abordagem baseada em WAF representa o reconhecimento da ignorância e da localização da fraqueza, e a migração para modelos ainda não foi validada, além de ir contra ideias como autoproteção responsiva da própria aplicação.
Eu quero proteção para impedir que meu site seja raspado para fins de treinamento de IA. Já sinto que essa é uma batalha perdida, mas descobri que pessoas que valorizam privacidade também pensam o mesmo.
Como acontece com a maioria dos produtos da Cloudflare, este também fica mais útil quanto mais clientes o utilizam, e exige menos esforço manual por cliente. O valor da Cloudflare não está na configuração e nas garantias, mas na visibilidade quase em tempo real e no empacotamento dos ataques que todas as outras pessoas estão vendo.
Este produto parece uma ideia muito boa. Quando é tão simples quanto adicionar e ativar um firewall, é mais fácil atrair interesse e adoção do que outros produtos de guardrails. Fico curioso sobre o quão útil um firewall genérico para LLM pode ser, e quanto ajuste fino será necessário e possível dependendo do modelo e do caso de uso. Mas isso parece algo fácil de resolver.
Pelo que entendi deste post, a Cloudflare está se enfiando em censura e guerra cultural. Os usuários pagantes da Cloudflare vão pagar para impor seus próprios vieses políticos, e os usuários de IA vão acusar a Cloudflare de aderir à censura. A Cloudflare pode acabar se envolvendo desnecessariamente em batalhas políticas.
Estão usando IA para filtrar requisições? Se sim, isso seria uma combinação feita no céu!
[Aproximando-se do microfone] O ingrediente secreto é expressão regular.
Tenho pensado que gostaria de fazer algo em espírito semelhante com credenciais inteligentes de pagamento, em situações em que um LLM toma decisões de compra/não compra para evitar o uso indevido de LLMs. A ideia é fornecer um token de uso único (ou algo parecido) apenas quando as credenciais de pagamento forem solicitadas por uma cadeia legítima. Se houver alguém pensando nessa área, eu gostaria de conversar.
Há muito tempo eu achava que eles continuariam perseguindo a próxima grande novidade do marketing. Ótimo, isso abre mais espaço para concorrência no mercado de CDN/DNS/WAF para empresas que ainda se importam com esse tipo de coisa.