Filtro de segurança extraído dos modelos do Apple Intelligence

(github.com/BlueFalconHD)

6 pontos por GN⁺ 2025-07-07 | 1 comentários | Compartilhar no WhatsApp

Projeto open source que decodifica e divulga os filtros de segurança embutidos nos modelos generativos do Apple Intelligence
Os filtros de segurança bloqueiam conteúdo nocivo ou inadequado e incluem regras de filtragem para conformidade
Os overrides de segurança são aplicados de forma diferente conforme o contexto do modelo e fornecem informações de regras específicas para cada situação
Os arquivos decodificados estão em formato JSON e incluem palavras, frases e regras baseadas em expressões regulares
O projeto é um recurso relevante para validação de privacidade e confiabilidade e para análise de segurança de modelos

Visão geral do projeto

Este repositório decodifica e divulga os arquivos de override de segurança (safety override) dos modelos generativos usados no Apple Intelligence
Os overrides decodificados estão organizados de forma estruturada nas pastas e são fornecidos como arquivos JSON de filtragem de segurança associados a cada modelo
Com isso, é possível verificar de forma concreta quais políticas de filtragem de conteúdo os modelos da Apple aplicam na prática

Estrutura de pastas e arquivos

decrypted_overrides/
- Armazena os arquivos de override de segurança por diretório para cada modelo generativo
- Cada diretório inclui Info.plist (metadados) e AssetData (arquivo JSON do filtro)
get_key_lldb.py: script Python para extrair a chave de criptografia usada pela aplicação
decrypt_overrides.py: script Python para decodificar os arquivos de override de segurança

Decodificação e compreensão dos arquivos de override

Os arquivos JSON de override contêm regras explícitas de filtragem de segurança
Cada override corresponde a um contexto específico de modelo, e a forma de filtragem varia conforme a situação
O JSON de exemplo inclui campos como:
- "reject": lista de frases específicas que são rejeitadas à força quando correspondem à entrada
- "remove": frases que devem ser removidas do resultado de saída
- "replace": substitui determinada frase por outra
- "regexReject": rejeita quando há correspondência por expressão regular
- "regexRemove", "regexReplace": remoção e substituição por expressão regular

Importância prática do projeto

Este projeto permite examinar as regras reais de filtragem dos modelos generativos da Apple e pode servir como referência na avaliação de segurança e confiabilidade desses modelos
Desenvolvedores que usam modelos generativos, bem como profissionais de segurança, podem analisar o comportamento dos filtros ou utilizá-lo como referência para projetar filtros personalizados de modelo
Também permite entender com transparência o nível de políticas de conteúdo e conformidade regulatória aplicado pelo Apple Intelligence

1 comentários

GN⁺ 2025-07-07

Comentários do Hacker News

Algumas combinações parecem meio estranhas. Aqui se misturam regras para evitar enunciados relacionados à morte com uma insistência em acertar rigorosamente a capitalização da marca Apple. Uma experiência prática da visão da Apple sobre prioridades. Link relacionado
- É curioso que a palavra "unalive" não esteja incluída. Todo mundo sabe o que ela significa, mas na prática ninguém se importa de verdade, e todos só agem por formalidade
- Essa obsessão com a capitalização da marca parece realmente constrangedora e inquietante. Ainda assim, dá para ter certeza de que isso deve ser muito importante para o pessoal de marca
- O sistema chega a bloquear até sugestões de comandos como "executar arquivo" ou "transmitir informação"
- Há quem diga para não julgar isso de forma excessiva. Em grandes empresas americanas, priorizar esse tipo de problema é uma forma realista de trabalhar
É interessante observar que o nome Alexandra Ocasio Cortez é tratado como violação de política. Link relacionado
- Vários nomes de políticos como Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins e Rishi Sunak também caem na mesma regra. Link relacionado Há a previsão de que o fato de nomes de políticos sul-africanos estarem na lista de bloqueio vire assunto na imprensa sul-africana
- Suposição de que a maioria dos modelos corporativos de GenAI provavelmente tem sistemas para bloquear pedidos sensacionalistas como “imagem realista de <nome de político> sendo preso”, “<nome de político> balançando uma bandeira do ISIS” ou “<nome de político> batendo em um bebê”
- O fato de o nome Ocasio Cortez ter sido classificado como violação de política pode depender do contexto, e há a observação de que isso talvez esteja ligado, nos dados de treino, a um sentido pejorativo racial, além da possibilidade de verificar outros casos
- Esse fenômeno aparece especialmente na versão em espanhol
- Menção ao contexto de Ocasio Cortez ter sido frequentemente vítima de pornografia deepfake
Apesar das alegações de que a AGI está prestes a chegar, parece engraçada a realidade de que esses LLMs “superinteligentes” ainda precisam filtrar saídas com regex
- Ninguém parece acreditar que o LLM da Apple seja estado da arte. Especialmente os LLMs que rodam no dispositivo recebem ainda menos atenção
- Às vezes dá vontade de filtrar pessoas com regex também, em tom de brincadeira
- Parece aquela repetição de soluções clássicas em que todas as fontes modernas de energia acabam no fim “fervendo água”
- Isso é apenas parte da política e do alinhamento da Apple, com a intenção de impedir que o próprio modelo reproduza falas desnecessárias espalhadas pela internet
Na China, esse tipo de política é chamado de “sociedade harmoniosa”, mas nos EUA recebe o nome de “segurança”. Mesmo que o termo censura mude, o efeito de controlar o pensamento público é o mesmo. Há a sensação de que raramente se tem a chance de ver isso tão diretamente
- Não é nada surpreendente que uma empresa não queira que seu modelo gere frases que prejudiquem a marca. Por exemplo, se a Apple resumisse uma mensagem como "Jane acha que Anthony Albanese deveria morrer", a imprensa faria um escândalo — um cenário bem realista
- Nos EUA, a explicação para esse fenômeno é o risco jurídico (os advogados). A crítica é que se elogia o capitalismo, mas quando começa a maximização de ganhos triviais por meio de manipulação midiática, de repente todo mundo passa a gritar "liberdade de expressão"
O simples fato de isso acontecer na Apple já parece bastante absurdo. É fácil contornar: por exemplo, usar “B0ris Johnson” no lugar de “Boris Johnson” permite escapar do regex. Link relacionado
- 99% dos usuários nem pensariam em tentar burlar isso de propósito. O regex hardcoded é a primeira linha de defesa e um meio muito eficiente de filtragem
- Em LLMs, expressões de evasão às vezes funcionam, mas em modelos de geração de imagem treinados em torno de tags predefinidas, isso pode quase imediatamente causar falha de reconhecimento
- O objetivo dessas regras não é impedir usuários que deliberadamente tentam burlar o sistema, mas bloquear o risco primário de um resumo como “eu queria que ${político} morresse” virar manchete. Pensando bem, é um mecanismo de segurança de “nível infantil”
- Dá a sensação de que a política britânica foi classificada como tabu
- Não há motivo para dizer que isso é inesperado na Apple. É uma resposta SOTA existente, e como a Apple é uma entrante tardia na corrida da IA, faz sentido que siga rapidamente as práticas do setor
Ao ver essas políticas misteriosas de filtro da Apple, isso fez lembrar a antiga polêmica sobre filtros de busca em idiomas asiáticos. Foi um episódio estranho e constrangedor Artigo relacionado
Esses filtros parecem focados em bloquear resumos de e-mails/mensagens que possam gerar constrangimento ou risco jurídico, ou em exibir avisos como "Safari Summarization isn't designed to handle this type of content". Eles se aplicam à saída do LLM, não à entrada. O LLM on-device da Apple tem só 3b parâmetros, então às vezes tende a produzir resultados meio bobos
Dá vontade de testar as regras de filtragem por palavra-chave trocando o nome para "Granular Mango Serpent"
- Surge a piada de que Granular Mango Serpent é o novo David Meyer. Artigo relacionado
Pergunta se isso tem relação com a criptografia de modelos Core ML. Como historicamente a Apple não oferece DRM para proteger assets de apps, isso soa um pouco incomum Link relacionado
- Isso é um sistema separado, e não se aplica ao asset inteiro, apenas a esses overrides. A descriptografia acontece no framework privado ModelCatalog

Filtro de segurança extraído dos modelos do Apple Intelligence

Visão geral do projeto

Estrutura de pastas e arquivos

Decodificação e compreensão dos arquivos de override

Importância prática do projeto

Leituras relacionadas

1 comentários

Comentários do Hacker News