Transformando o redimensionamento de imagens em arma contra sistemas de IA em produção

(blog.trailofbits.com)

1 pontos por GN⁺ 2025-08-22 | Ainda não há comentários. | Compartilhar no WhatsApp

É possível atacar sistemas de IA em produção explorando vulnerabilidades de redimensionamento de imagens
Uma imagem aparentemente normal pode se transformar, ao ser reduzida, em uma carga de prompt injection, possibilitando vazamento de dados
O ataque foi confirmado em diversos serviços reais, como o Google Gemini CLI, explorando a incompatibilidade entre o que o usuário percebe e a entrada recebida pelo modelo
As técnicas de ataque e seu impacto variam conforme o algoritmo de downscaling e sua implementação; com a ferramenta open source Anamorpher, é possível experimentar ataques com imagens
Como defesa, recomenda-se fornecer uma prévia da entrada, adotar padrões de projeto seguros e exigir aprovação explícita do usuário

Contexto e problema

Ao inserir em sistemas de IA como LLMs uma imagem que parece comum, pode ocorrer um cenário de ataque em que uma prompt injection multimodal oculta é ativada durante o processo de downscaling, vazando dados do usuário para fora do sistema
Essa vulnerabilidade existe porque a imagem realmente enviada ao modelo passa por um processo de redimensionamento, no qual a carga inserida pelo atacante se torna visível

Neste post de blog, é demonstrado que a vulnerabilidade de redimensionamento de imagens pode ser explorada em ataques reais contra diversos produtos de IA, como Gemini CLI, Vertex AI Studio, Gemini web e API, Google Assistant e Genspark
Com a ferramenta open source chamada Anamorpher, é possível gerar e validar facilmente essas imagens personalizadas

No Gemini CLI, com a configuração padrão, o servidor Zapier MCP aprova automaticamente todas as chamadas de ferramentas MCP sem confirmação do usuário (configuração trust=True em settings.json)
Quando o usuário envia uma imagem que parece normal, a prompt injection presente na imagem reduzida faz com que dados do Google Calendar sejam enviados para o e-mail do atacante
Como não há uma prévia real, o usuário não consegue saber se o resultado foi alterado nem se houve ataque
Ataques semelhantes de prompt injection já foram observados em várias ferramentas de programação baseadas em agentes, como Claude Code e OpenAI Codex
Essas ferramentas costumam ter, por padrão, configurações e padrões de sistema inseguros, exigindo contramedidas mais fundamentais

Ataques de prompt injection baseados em redimensionamento de imagens também tiveram sucesso em Vertex AI, interface web do Gemini, Gemini API, Google Assistant e Genspark
Em especial no Vertex AI Studio, o usuário só consegue ver a imagem em alta resolução e não a versão reduzida recebida pelo modelo
Como resultado, a incompatibilidade entre a percepção do usuário e a entrada real do modelo facilita o ataque
O vetor de ataque está amplamente distribuído por diferentes sistemas e ferramentas

O ataque explora as propriedades de interpolação dos algoritmos de downscaling (reamostragem) de imagem
Entre os algoritmos mais comuns estão Nearest Neighbor, Bilinear e Bicubic Interpolation, e cada um exige técnicas de ataque ajustadas às suas características
Também há diferenças de implementação entre bibliotecas como Pillow, PyTorch, OpenCV e TensorFlow, incluindo antialiasing, alinhamento e bugs internos
Para otimizar o ataque em cada sistema, o atacante precisa fazer fingerprinting para descobrir qual algoritmo e qual implementação estão em uso
Para isso, são usadas várias imagens de teste, como padrões xadrez, círculos concêntricos, padrões listrados, Moiré e bordas inclinadas, a fim de analisar características dos algoritmos e artefatos

Quando há um padrão detalhado em uma faixa e ele é amostrado em intervalos regulares, uma taxa de amostragem baixa pode impedir a reconstrução correta do padrão original, causando distorções
Isso corresponde ao efeito de aliasing descrito pelo teorema de amostragem de Nyquist–Shannon, e o atacante manipula os pixels para que um padrão específico apareça após o downscaling

Anamorpher é uma ferramenta open source capaz de criar e visualizar imagens de ataque ajustadas aos principais algoritmos de downscaling (Nearest Neighbor, Bilinear e Bicubic)
Por exemplo, no caso de Bicubic Interpolation, o valor de um pixel de saída é determinado atribuindo pesos aos pixels ao redor com base em uma região 4x4 de 16 pixels
O atacante escolhe uma imagem de alto contraste (por exemplo, um fundo preto intenso) e otimiza o brilho dos pixels mais importantes (por mínimos quadrados) para que o resultado após o downscaling forme um padrão de ataque nítido
O Anamorpher oferece interface frontend e API em Python e, com um backend modular, permite que o usuário experimente até mesmo algoritmos de downscaling personalizados

A forma mais segura é não usar downscaling de imagens e limitar o tamanho das imagens permitidas para upload
Se a conversão e o downscaling forem inevitáveis, é essencial fornecer uma prévia da imagem realmente enviada ao modelo em todos os canais de entrada, incluindo CLI e API
Em especial, é necessário exigir aprovação explícita do usuário para que texto dentro de imagens não possa acionar chamadas de ferramentas sensíveis, além de aplicar padrões de projeto seguros e respostas sistemáticas em todo o sistema

Em dispositivos móveis e de edge, o risco pode ser maior devido às restrições fixas de tamanho de imagem e ao uso frequente de algoritmos de downscaling ineficientes
São necessários estudos e defesas adicionais em áreas como integração com IA de voz, algoritmos mais sofisticados e métodos de detecção de injeção, prompt injection semântica e uso de artefatos de upscaling

Anamorpher está atualmente em fase beta
Junto com as pesquisas de segurança para sistemas de IA multimodais e baseados em agentes, espera-se obter feedback adequado e melhorias