Google DeepMind libera como open source o SynthID, que marca e detecta texto gerado por LLMs

(github.com/google-deepmind)

7 pontos por GN⁺ 2024-10-31 | Ainda não há comentários. | Compartilhar no WhatsApp

O SynthID, do Google DeepMind, é uma tecnologia para aplicar e identificar marcas d’água em conteúdo gerado por IA, inserindo marcas d’água digitais diretamente em imagens, áudio, texto ou vídeo gerados por IA
- É possível ler uma descrição técnica mais completa desse método no artigo publicado na Nature
O SynthID Text foi disponibilizado como open source para que desenvolvedores possam usar marca d’água na geração de texto

Aplicação de marca d’água

O SynthID Text é um processador de logits aplicado ao pipeline de geração do modelo após Top-K e Top-P
Ele reforça os logits do modelo usando uma função g pseudoaleatória para codificar informações de marca d’água de uma forma que ajuda a determinar se o texto foi gerado pelo modelo sem afetar significativamente a qualidade do texto
A marca d’água é configurada para parametrizar a função g e definir como ela será aplicada durante a geração
Cada configuração de marca d’água usada deve ser armazenada de forma segura e privada
Dois parâmetros obrigatórios são necessários para a configuração de marca d’água
- Parâmetro keys: uma lista de inteiros aleatórios únicos usada para calcular as pontuações da função g em todo o vocabulário do modelo. O comprimento dessa lista determina o número de camadas de marca d’água aplicadas
- Parâmetro ngram_len: usado para equilibrar robustez e detectabilidade. Quanto maior o valor, mais facilmente a marca d’água é detectada, mas ela também fica mais vulnerável a alterações. O valor padrão 5 é adequado
É possível fazer configurações adicionais da marca d’água conforme os requisitos de desempenho
- A tabela de amostragem é composta por duas propriedades: sampling_table_size e sampling_table_seed
- Para garantir uma função g estável e sem viés durante a amostragem, sampling_table_size deve ser de pelo menos 2^16
- No entanto, o tamanho da tabela de amostragem afeta a quantidade de memória necessária na inferência
- Qualquer inteiro desejado pode ser usado em sampling_table_seed
- n-gramas repetidos dentro de context_history_size dos tokens anteriores não recebem marca d’água para aumentar a detectabilidade
Não é necessário treinamento adicional do modelo para gerar texto com a marca d’água do SynthID Text
Basta passar a configuração de marca d’água para o método .generate() do modelo. Isso ativa o processador de logits do SynthID Text
É possível conferir exemplos de código no post do blog e no Space da Hugging Face mostrando como aplicar a marca d’água na biblioteca Transformers

Detecção de marca d’água e verificabilidade

A detecção da marca d’água é probabilística
Um detector bayesiano está disponível no Hugging Face Transformers e no GitHub
Esse detector pode produzir três estados possíveis de detecção: marcado com marca d’água, sem marca d’água ou incerto
É possível personalizar o comportamento definindo dois limiares para atingir taxas específicas de falso positivo e falso negativo
Modelos que usam o mesmo tokenizador podem compartilhar a mesma configuração de marca d’água e o mesmo detector, desde que o conjunto de treinamento do detector inclua exemplos de todos os modelos que compartilham essa marca d’água
Depois de ter um detector treinado, é possível escolher se e como expor esse detector a usuários e ao público
- A opção totalmente privada não publica nem expõe o detector de nenhuma forma
- A opção semiprivada não publica o detector, mas o expõe via API
- A opção pública libera o detector para que outras pessoas possam baixá-lo e usá-lo

Limitações

A marca d’água do SynthID Text é robusta a algumas transformações, mas tem limitações
- A aplicação de marca d’água é menos eficaz em respostas factuais, porque há menos oportunidades de reforçar a geração sem reduzir a precisão
- Reescrever completamente um texto gerado por IA ou traduzi-lo para outro idioma pode reduzir significativamente a pontuação de confiança do detector
O SynthID Text não foi projetado para impedir diretamente que agentes mal-intencionados causem danos
No entanto, ele pode dificultar o uso malicioso de conteúdo gerado por IA e, combinado com outras abordagens, pode oferecer melhor cobertura em diferentes tipos de conteúdo e plataformas

Opinião do GN⁺

O SynthID Text oferece uma função útil para identificar a origem de conteúdo gerado por IA por meio de marcas d’água
No entanto, a marca d’água em si não garante a autenticidade do conteúdo, já que até desinformação ou conteúdo nocivo podem receber marca d’água
Portanto, além da marca d’água, também será necessária uma verificação de confiabilidade do próprio conteúdo
O fato de estar integrado a bibliotecas importantes como a Hugging Face e poder ser usado facilmente por desenvolvedores é uma grande vantagem
Ainda assim, a decisão de tornar o detector público deve ser tomada com cautela, porque a divulgação total pode aumentar as tentativas de contornar a marca d’água
No geral, com a rápida disseminação de conteúdo gerado por IA, a importância do SynthID Text como tecnologia para identificar a origem desse conteúdo tende a crescer

Google DeepMind libera como open source o SynthID, que marca e detecta texto gerado por LLMs

Aplicação de marca d’água

Detecção de marca d’água e verificabilidade

Limitações

Opinião do GN⁺

Leituras relacionadas

Ainda não há comentários.