Hackeando modelos de IA de linguagem natural

budlebee · 2021-03-14T11:00:03+09:00

De acordo com um artigo publicado em conjunto por Google, Harvard, Stanford, OpenAI e Apple, foi possível extrair dados específicos usados no treinamento apenas fazendo perguntas a grandes modelos de linguagem. Um ataque contra o GPT-2 conseguiu extrair com altíssima precisão manchetes de notícias e informações pessoais, como endereços residenciais. Não é apenas o GPT-2: outros modelos de linguagem também podem ser vulneráveis a esse tipo de ataque, por isso é preciso ter ainda mais cuidado no pré-processamento dos dados de treinamento

(arxiv.org)

12 pontos por budlebee 2021-03-14 | Ainda não há comentários. | Compartilhar no WhatsApp

De acordo com um artigo publicado em conjunto por Google, Harvard, Stanford, OpenAI e Apple, foi possível extrair dados específicos usados no treinamento apenas fazendo perguntas a grandes modelos de linguagem.
Um ataque contra o GPT-2 conseguiu extrair com altíssima precisão manchetes de notícias e informações pessoais, como endereços residenciais.
Não é apenas o GPT-2: outros modelos de linguagem também podem ser vulneráveis a esse tipo de ataque, por isso é preciso ter ainda mais cuidado no pré-processamento dos dados de treinamento

Hackeando modelos de IA de linguagem natural

Leituras relacionadas

Ainda não há comentários.