6 pontos por GN⁺ 2025-07-07 | 1 comentários | Compartilhar no WhatsApp
  • Projeto open source que decodifica e divulga os filtros de segurança embutidos nos modelos generativos do Apple Intelligence
  • Os filtros de segurança bloqueiam conteúdo nocivo ou inadequado e incluem regras de filtragem para conformidade
  • Os overrides de segurança são aplicados de forma diferente conforme o contexto do modelo e fornecem informações de regras específicas para cada situação
  • Os arquivos decodificados estão em formato JSON e incluem palavras, frases e regras baseadas em expressões regulares
  • O projeto é um recurso relevante para validação de privacidade e confiabilidade e para análise de segurança de modelos

Visão geral do projeto

  • Este repositório decodifica e divulga os arquivos de override de segurança (safety override) dos modelos generativos usados no Apple Intelligence
  • Os overrides decodificados estão organizados de forma estruturada nas pastas e são fornecidos como arquivos JSON de filtragem de segurança associados a cada modelo
  • Com isso, é possível verificar de forma concreta quais políticas de filtragem de conteúdo os modelos da Apple aplicam na prática

Estrutura de pastas e arquivos

  • decrypted_overrides/
    • Armazena os arquivos de override de segurança por diretório para cada modelo generativo
    • Cada diretório inclui Info.plist (metadados) e AssetData (arquivo JSON do filtro)
  • get_key_lldb.py: script Python para extrair a chave de criptografia usada pela aplicação
  • decrypt_overrides.py: script Python para decodificar os arquivos de override de segurança

Decodificação e compreensão dos arquivos de override

  • Os arquivos JSON de override contêm regras explícitas de filtragem de segurança
  • Cada override corresponde a um contexto específico de modelo, e a forma de filtragem varia conforme a situação
  • O JSON de exemplo inclui campos como:
    • "reject": lista de frases específicas que são rejeitadas à força quando correspondem à entrada
    • "remove": frases que devem ser removidas do resultado de saída
    • "replace": substitui determinada frase por outra
    • "regexReject": rejeita quando há correspondência por expressão regular
    • "regexRemove", "regexReplace": remoção e substituição por expressão regular

Importância prática do projeto

  • Este projeto permite examinar as regras reais de filtragem dos modelos generativos da Apple e pode servir como referência na avaliação de segurança e confiabilidade desses modelos
  • Desenvolvedores que usam modelos generativos, bem como profissionais de segurança, podem analisar o comportamento dos filtros ou utilizá-lo como referência para projetar filtros personalizados de modelo
  • Também permite entender com transparência o nível de políticas de conteúdo e conformidade regulatória aplicado pelo Apple Intelligence

1 comentários

 
GN⁺ 2025-07-07
Comentários do Hacker News
  • Algumas combinações parecem meio estranhas. Aqui se misturam regras para evitar enunciados relacionados à morte com uma insistência em acertar rigorosamente a capitalização da marca Apple. Uma experiência prática da visão da Apple sobre prioridades. Link relacionado
    • É curioso que a palavra "unalive" não esteja incluída. Todo mundo sabe o que ela significa, mas na prática ninguém se importa de verdade, e todos só agem por formalidade
    • Essa obsessão com a capitalização da marca parece realmente constrangedora e inquietante. Ainda assim, dá para ter certeza de que isso deve ser muito importante para o pessoal de marca
    • O sistema chega a bloquear até sugestões de comandos como "executar arquivo" ou "transmitir informação"
    • Há quem diga para não julgar isso de forma excessiva. Em grandes empresas americanas, priorizar esse tipo de problema é uma forma realista de trabalhar
  • É interessante observar que o nome Alexandra Ocasio Cortez é tratado como violação de política. Link relacionado
    • Vários nomes de políticos como Anthony Albanese, Boris Johnson, Christopher Luxon, Cyril Ramaphosa, Jacinda Arden, Jacob Zuma, John Steenhuisen, Justin Trudeau, Keir Starmer, Liz Truss, Michael D. Higgins e Rishi Sunak também caem na mesma regra. Link relacionado Há a previsão de que o fato de nomes de políticos sul-africanos estarem na lista de bloqueio vire assunto na imprensa sul-africana
    • Suposição de que a maioria dos modelos corporativos de GenAI provavelmente tem sistemas para bloquear pedidos sensacionalistas como “imagem realista de <nome de político> sendo preso”, “<nome de político> balançando uma bandeira do ISIS” ou “<nome de político> batendo em um bebê”
    • O fato de o nome Ocasio Cortez ter sido classificado como violação de política pode depender do contexto, e há a observação de que isso talvez esteja ligado, nos dados de treino, a um sentido pejorativo racial, além da possibilidade de verificar outros casos
    • Esse fenômeno aparece especialmente na versão em espanhol
    • Menção ao contexto de Ocasio Cortez ter sido frequentemente vítima de pornografia deepfake
  • Apesar das alegações de que a AGI está prestes a chegar, parece engraçada a realidade de que esses LLMs “superinteligentes” ainda precisam filtrar saídas com regex
    • Ninguém parece acreditar que o LLM da Apple seja estado da arte. Especialmente os LLMs que rodam no dispositivo recebem ainda menos atenção
    • Às vezes dá vontade de filtrar pessoas com regex também, em tom de brincadeira
    • Parece aquela repetição de soluções clássicas em que todas as fontes modernas de energia acabam no fim “fervendo água”
    • Isso é apenas parte da política e do alinhamento da Apple, com a intenção de impedir que o próprio modelo reproduza falas desnecessárias espalhadas pela internet
  • Na China, esse tipo de política é chamado de “sociedade harmoniosa”, mas nos EUA recebe o nome de “segurança”. Mesmo que o termo censura mude, o efeito de controlar o pensamento público é o mesmo. Há a sensação de que raramente se tem a chance de ver isso tão diretamente
    • Não é nada surpreendente que uma empresa não queira que seu modelo gere frases que prejudiquem a marca. Por exemplo, se a Apple resumisse uma mensagem como "Jane acha que Anthony Albanese deveria morrer", a imprensa faria um escândalo — um cenário bem realista
    • Nos EUA, a explicação para esse fenômeno é o risco jurídico (os advogados). A crítica é que se elogia o capitalismo, mas quando começa a maximização de ganhos triviais por meio de manipulação midiática, de repente todo mundo passa a gritar "liberdade de expressão"
  • O simples fato de isso acontecer na Apple já parece bastante absurdo. É fácil contornar: por exemplo, usar “B0ris Johnson” no lugar de “Boris Johnson” permite escapar do regex. Link relacionado
    • 99% dos usuários nem pensariam em tentar burlar isso de propósito. O regex hardcoded é a primeira linha de defesa e um meio muito eficiente de filtragem
    • Em LLMs, expressões de evasão às vezes funcionam, mas em modelos de geração de imagem treinados em torno de tags predefinidas, isso pode quase imediatamente causar falha de reconhecimento
    • O objetivo dessas regras não é impedir usuários que deliberadamente tentam burlar o sistema, mas bloquear o risco primário de um resumo como “eu queria que ${político} morresse” virar manchete. Pensando bem, é um mecanismo de segurança de “nível infantil”
    • Dá a sensação de que a política britânica foi classificada como tabu
    • Não há motivo para dizer que isso é inesperado na Apple. É uma resposta SOTA existente, e como a Apple é uma entrante tardia na corrida da IA, faz sentido que siga rapidamente as práticas do setor
  • Ao ver essas políticas misteriosas de filtro da Apple, isso fez lembrar a antiga polêmica sobre filtros de busca em idiomas asiáticos. Foi um episódio estranho e constrangedor Artigo relacionado
  • Esses filtros parecem focados em bloquear resumos de e-mails/mensagens que possam gerar constrangimento ou risco jurídico, ou em exibir avisos como "Safari Summarization isn't designed to handle this type of content". Eles se aplicam à saída do LLM, não à entrada. O LLM on-device da Apple tem só 3b parâmetros, então às vezes tende a produzir resultados meio bobos
  • Dá vontade de testar as regras de filtragem por palavra-chave trocando o nome para "Granular Mango Serpent"
  • Pergunta se isso tem relação com a criptografia de modelos Core ML. Como historicamente a Apple não oferece DRM para proteger assets de apps, isso soa um pouco incomum Link relacionado
    • Isso é um sistema separado, e não se aplica ao asset inteiro, apenas a esses overrides. A descriptografia acontece no framework privado ModelCatalog