- É possível atacar sistemas de IA em produção explorando vulnerabilidades de redimensionamento de imagens
- Uma imagem aparentemente normal pode se transformar, ao ser reduzida, em uma carga de prompt injection, possibilitando vazamento de dados
- O ataque foi confirmado em diversos serviços reais, como o Google Gemini CLI, explorando a incompatibilidade entre o que o usuário percebe e a entrada recebida pelo modelo
- As técnicas de ataque e seu impacto variam conforme o algoritmo de downscaling e sua implementação; com a ferramenta open source Anamorpher, é possível experimentar ataques com imagens
- Como defesa, recomenda-se fornecer uma prévia da entrada, adotar padrões de projeto seguros e exigir aprovação explícita do usuário
Contexto e problema
- Ao inserir em sistemas de IA como LLMs uma imagem que parece comum, pode ocorrer um cenário de ataque em que uma prompt injection multimodal oculta é ativada durante o processo de downscaling, vazando dados do usuário para fora do sistema
- Essa vulnerabilidade existe porque a imagem realmente enviada ao modelo passa por um processo de redimensionamento, no qual a carga inserida pelo atacante se torna visível
Ataques por redimensionamento de imagens contra sistemas de IA em produção
- Neste post de blog, é demonstrado que a vulnerabilidade de redimensionamento de imagens pode ser explorada em ataques reais contra diversos produtos de IA, como Gemini CLI, Vertex AI Studio, Gemini web e API, Google Assistant e Genspark
- Com a ferramenta open source chamada Anamorpher, é possível gerar e validar facilmente essas imagens personalizadas
Exemplo de ataque de exfiltração de dados (Gemini CLI)
- No Gemini CLI, com a configuração padrão, o servidor Zapier MCP aprova automaticamente todas as chamadas de ferramentas MCP sem confirmação do usuário (configuração
trust=True em settings.json)
- Quando o usuário envia uma imagem que parece normal, a prompt injection presente na imagem reduzida faz com que dados do Google Calendar sejam enviados para o e-mail do atacante
- Como não há uma prévia real, o usuário não consegue saber se o resultado foi alterado nem se houve ataque
- Ataques semelhantes de prompt injection já foram observados em várias ferramentas de programação baseadas em agentes, como Claude Code e OpenAI Codex
- Essas ferramentas costumam ter, por padrão, configurações e padrões de sistema inseguros, exigindo contramedidas mais fundamentais
Casos adicionais de ataque
- Ataques de prompt injection baseados em redimensionamento de imagens também tiveram sucesso em Vertex AI, interface web do Gemini, Gemini API, Google Assistant e Genspark
- Em especial no Vertex AI Studio, o usuário só consegue ver a imagem em alta resolução e não a versão reduzida recebida pelo modelo
- Como resultado, a incompatibilidade entre a percepção do usuário e a entrada real do modelo facilita o ataque
- O vetor de ataque está amplamente distribuído por diferentes sistemas e ferramentas
Funcionamento interno do ataque por redimensionamento de imagens
- O ataque explora as propriedades de interpolação dos algoritmos de downscaling (reamostragem) de imagem
- Entre os algoritmos mais comuns estão Nearest Neighbor, Bilinear e Bicubic Interpolation, e cada um exige técnicas de ataque ajustadas às suas características
- Também há diferenças de implementação entre bibliotecas como Pillow, PyTorch, OpenCV e TensorFlow, incluindo antialiasing, alinhamento e bugs internos
- Para otimizar o ataque em cada sistema, o atacante precisa fazer fingerprinting para descobrir qual algoritmo e qual implementação estão em uso
- Para isso, são usadas várias imagens de teste, como padrões xadrez, círculos concêntricos, padrões listrados, Moiré e bordas inclinadas, a fim de analisar características dos algoritmos e artefatos
Princípios de amostragem de imagem e o teorema de Nyquist–Shannon
- Quando há um padrão detalhado em uma faixa e ele é amostrado em intervalos regulares, uma taxa de amostragem baixa pode impedir a reconstrução correta do padrão original, causando distorções
- Isso corresponde ao efeito de aliasing descrito pelo teorema de amostragem de Nyquist–Shannon, e o atacante manipula os pixels para que um padrão específico apareça após o downscaling
Anamorpher: ferramenta para criação de imagens de ataque
- Anamorpher é uma ferramenta open source capaz de criar e visualizar imagens de ataque ajustadas aos principais algoritmos de downscaling (Nearest Neighbor, Bilinear e Bicubic)
- Por exemplo, no caso de Bicubic Interpolation, o valor de um pixel de saída é determinado atribuindo pesos aos pixels ao redor com base em uma região 4x4 de 16 pixels
- O atacante escolhe uma imagem de alto contraste (por exemplo, um fundo preto intenso) e otimiza o brilho dos pixels mais importantes (por mínimos quadrados) para que o resultado após o downscaling forme um padrão de ataque nítido
- O Anamorpher oferece interface frontend e API em Python e, com um backend modular, permite que o usuário experimente até mesmo algoritmos de downscaling personalizados
Defesa e mitigação
- A forma mais segura é não usar downscaling de imagens e limitar o tamanho das imagens permitidas para upload
- Se a conversão e o downscaling forem inevitáveis, é essencial fornecer uma prévia da imagem realmente enviada ao modelo em todos os canais de entrada, incluindo CLI e API
- Em especial, é necessário exigir aprovação explícita do usuário para que texto dentro de imagens não possa acionar chamadas de ferramentas sensíveis, além de aplicar padrões de projeto seguros e respostas sistemáticas em todo o sistema
Próximos desafios
- Em dispositivos móveis e de edge, o risco pode ser maior devido às restrições fixas de tamanho de imagem e ao uso frequente de algoritmos de downscaling ineficientes
- São necessários estudos e defesas adicionais em áreas como integração com IA de voz, algoritmos mais sofisticados e métodos de detecção de injeção, prompt injection semântica e uso de artefatos de upscaling
Conclusão
- Anamorpher está atualmente em fase beta
- Junto com as pesquisas de segurança para sistemas de IA multimodais e baseados em agentes, espera-se obter feedback adequado e melhorias
Ainda não há comentários.