- Projeto open source que decodifica e divulga os filtros de segurança embutidos nos modelos generativos do Apple Intelligence
- Os filtros de segurança bloqueiam conteúdo nocivo ou inadequado e incluem regras de filtragem para conformidade
- Os overrides de segurança são aplicados de forma diferente conforme o contexto do modelo e fornecem informações de regras específicas para cada situação
- Os arquivos decodificados estão em formato JSON e incluem palavras, frases e regras baseadas em expressões regulares
- O projeto é um recurso relevante para validação de privacidade e confiabilidade e para análise de segurança de modelos
Visão geral do projeto
- Este repositório decodifica e divulga os arquivos de override de segurança (safety override) dos modelos generativos usados no Apple Intelligence
- Os overrides decodificados estão organizados de forma estruturada nas pastas e são fornecidos como arquivos JSON de filtragem de segurança associados a cada modelo
- Com isso, é possível verificar de forma concreta quais políticas de filtragem de conteúdo os modelos da Apple aplicam na prática
Estrutura de pastas e arquivos
decrypted_overrides/
- Armazena os arquivos de override de segurança por diretório para cada modelo generativo
- Cada diretório inclui Info.plist (metadados) e AssetData (arquivo JSON do filtro)
get_key_lldb.py: script Python para extrair a chave de criptografia usada pela aplicação
decrypt_overrides.py: script Python para decodificar os arquivos de override de segurança
Decodificação e compreensão dos arquivos de override
- Os arquivos JSON de override contêm regras explícitas de filtragem de segurança
- Cada override corresponde a um contexto específico de modelo, e a forma de filtragem varia conforme a situação
- O JSON de exemplo inclui campos como:
"reject": lista de frases específicas que são rejeitadas à força quando correspondem à entrada
"remove": frases que devem ser removidas do resultado de saída
"replace": substitui determinada frase por outra
"regexReject": rejeita quando há correspondência por expressão regular
"regexRemove", "regexReplace": remoção e substituição por expressão regular
Importância prática do projeto
- Este projeto permite examinar as regras reais de filtragem dos modelos generativos da Apple e pode servir como referência na avaliação de segurança e confiabilidade desses modelos
- Desenvolvedores que usam modelos generativos, bem como profissionais de segurança, podem analisar o comportamento dos filtros ou utilizá-lo como referência para projetar filtros personalizados de modelo
- Também permite entender com transparência o nível de políticas de conteúdo e conformidade regulatória aplicado pelo Apple Intelligence
1 comentários
Comentários do Hacker News