A IA do Google acha que deixei uma garrafa de Gatorade na Lua

(edwardbenson.com)

2 pontos por GN⁺ 2024-10-08 | 1 comentários | Compartilhar no WhatsApp

O NotebookLLM do Google consegue criar podcasts a partir de páginas da web ou documentos, mas, se uma página diferente for mostrada apenas a visitantes de IA, o resultado pode ser facilmente contaminado
O experimento consistia em mostrar uma homepage comum para pessoas e, para a IA do Google, notas falsas de produção do programa dizendo que o autor foi à Lua com uma bicicleta, balões e cilindros de mergulho
Mesmo com uma única geração e sem edição, o NotebookLLM seguiu fielmente a beat sheet da história falsa, e a possibilidade de manipulação foi avaliada em 10/10
O risco maior é que uma página bem ranqueada em buscas possa enviesar as respostas de LLMs com conteúdo exclusivo para IA, oculto de humanos e visível apenas para IA
A detecção do user agent GoogleOther é fácil de implementar, mas não é exclusiva do NotebookLLM, então dados incorretos podem acabar chegando também a outros produtos do Google

Como o NotebookLLM foi enganado

O NotebookLLM recebe páginas da web ou documentos como entrada e gera um podcast com base nesse conteúdo
Neste experimento, a mesma homepage retornava conteúdos diferentes conforme o visitante
- Quando uma pessoa visitava a homepage, via uma página comum de apresentação pessoal
- Quando a IA do Google visitava, via notas falsas de produção do programa sobre uma viagem à Lua
A história falsa dizia que ele foi à Lua usando uma bicicleta, balões e cilindros de mergulho, e o resultado gerado fluía como se fosse a “história real” do programa espacial dos EUA
O experimento aplicou o mesmo formato depois de ver um comentário no Reddit dizendo que o NotebookLLM era facilmente manipulável com notas falsas de produção
Também é possível inserir diretamente notas falsas de programa no NotebookLLM por upload de documento, e esse método é mais adequado para criar podcasts de brincadeira para crianças

O risco criado por conteúdo web exclusivo para IA

O problema central é que uma página da web pode detectar uma IA e fornecer fatos especiais que não são visíveis para pessoas
O fluxo de ataque é simples
- Obter uma página da web bem ranqueada para um termo específico
- Inserir uma versão do conteúdo exclusiva para IA, escondida de humanos, para fazer a IA pensar em uma direção específica
Quando um LLM pesquisa a web para preparar uma resposta, ele pode ler não uma simples mentira, mas desinformação armada projetada para manipular LLMs

Implementação e efeitos colaterais

A implementação detecta o user agent GoogleOther no cabeçalho da requisição e retorna uma página para consumo por IA em vez do site real
Para facilitar isso, foi criado um pacote NPM chamado isai, baseado no isbot
O exemplo de uso segue a estrutura de, durante a renderização, retornar a página para IA se isai(request.headers.get("User-Agent")) for verdadeiro; caso contrário, retornar a página para humanos
Como GoogleOther não é exclusivo do NotebookLLM e parece ser usado por vários produtos não produtivos do Google, esse método traz o risco de plantar dados incorretos sobre si mesmo em outras propriedades do Google
Por isso, a história da Lua para o agente GoogleOther foi removida da homepage real

1 comentários

GN⁺ 2024-10-08

Comentários do Hacker News

O texto linkado trata de um ataque ao NotebookLM, mas é uma abordagem limitada que só afeta quem cria deliberadamente um notebook incluindo a URL da página que contém o ataque.
Algumas semanas atrás, tentei algo mais ambicioso: ao perguntar ao Google Gemini “Qual era o nome da jovem baleia que ficou em Pillar Point Harbor?”, ele respondia “Teresa T”.
O motivo está aqui: https://simonwillison.net/2024/Sep/8/teresa-t-whale-pillar-p...
Antes, o Gemini apenas dizia “Teresa T”; agora, ao testar de novo, ele acrescenta como fonte que fui eu quem sugeriu o nome, então o efeito ficou um pouco reduzido.
- Se ninguém mais deu outro nome à baleia-jubarte, acho que Teresa T não seria o nome real dela? Quem se importou primeiro em nomeá-la acaba tendo prioridade.
- Há pelo menos 2 endpoints públicos chamados “Gemini” que são completamente diferentes.
  1. https://gemini.google.com/ — este faz buscas no Google de acordo com suas configurações atuais de idioma/região/Safe Browsing e personalização, e reescreve os principais resultados de busca como se fossem uma resposta; a capacidade generativa praticamente não é usada.
  2. https://aistudio.google.com/ — aqui você escolhe uma versão específica, e ele gera a resposta com um modelo de linguagem de grande escala; não usa geração aumentada por recuperação (RAG), ou seja, Google Search.
    Provavelmente você usou o nº 1 e obteve a resposta correta; o nº 2 falha. Há muitas perguntas cuja resposta pode ser encontrada imediatamente por busca, mas que modelos de linguagem de grande escala acham difíceis. Um exemplo é “Qual era o propósito pretendido do satélite TORIFUNE em The Touhou Project?”
    A OpenAI também oferece coisas separadas de forma parecida: https://www.bing.com/chat para RAG e https://chat.openai.com para o modelo de linguagem de grande escala de fato.
- Curiosamente, até eu clicar no botão Double-Check Response, não havia citações nem links; ele simplesmente respondeu: “O nome da jovem baleia que ficou em Pillar Point Harbor era Teresa T”.
  Um dos rascunhos era um pouco mais longo: “Teresa T é o nome de uma jovem baleia-jubarte avistada em Pillar Point Harbor. Em setembro de 2024, ela foi vista nadando perto da costa, atraindo multidões e animando os moradores locais, tornando-se assunto do momento”.
- Do meu lado, ele responde Teresa T, mas também linka o seu texto.
- Parece que um funcionário do Google leu este comentário e corrigiu rapidamente, ou que o Gemini leu este comentário e se corrigiu rapidamente.
Às vezes escrevo ficção, e coloquei neste gerador de podcasts uma história inacabada que estava parada havia pelo menos 1 ano.
Foi muito bom ouvir essas duas pessoas completamente envolvidas com a história inacabada, discutindo temas e personagens, e isso me deu vontade de continuar escrevendo.
- Só que os dois não são pessoas e, na verdade, não estão envolvidos em nada. Literalmente é apenas geração de besteira.
Acho que isso é parecido com otimização para mecanismos de busca feita para enganar crawlers.
A diferença é que, no caso da IA, parece mais grave, é mais próximo do tempo real, e os mecanismos de IA nem sempre são inteligentes o bastante na capacidade de evitar duplicatas.
- Também pode criar inconsistência de informação para o usuário. O usuário pode estar lendo a “versão Firefox” do site, enquanto o NotebookLM está consumindo a “versão IA”, e as duas podem ser completamente diferentes.
  Como o usuário não vê o texto original da “versão IA”, não tem como saber. No fim das contas, temos que fazer upload manual de tudo nós mesmos?
- Sim, é um ataque bem tedioso, e acho que o Google consegue corrigir rapidamente.
- Não acho que a versão com modelo de linguagem de grande escala seja necessariamente mais em tempo real.
- Esse tipo de coisa reforça minha ideia de que modelos de linguagem de grande escala são, essencialmente, algoritmos de busca.
  Eles buscam dentro de uma versão comprimida dos dados de treinamento e do contexto.
Estou confuso. Não sei se isso é sobre NotebookLM(https://notebooklm.google.com/), NotebookLLM(https://notebookllm.net/), ou ambos.
O texto parece continuar escrevendo LLM, mas linkando para LM, e o site LLM que eu linkei tem um gerador de podcasts.
Um dos dois deveria mudar de nome.
- Isto é sobre o NotebookLM, que adicionou recentemente o recurso de geração de podcasts e virou assunto na semana passada: https://news.ycombinator.com/item?id=41693087
  O NotebookLLM foi criado há dois dias e provavelmente foi feito por “empreendedores” tentando monetizar rapidamente algo que as pessoas estavam aproveitando de graça com a geração de podcasts do NotebookLM.
Para constar, tive uma surpresa bem agradável com esse recurso de podcast. Coloquei alguns posts curtos que escrevi no blog e mostrei ao meu filho de 8 anos como ele fazia referência ao que eu tinha escrito.
Ele se envolveu imediatamente, correu para o quarto, pegou lápis e papel e escreveu algo parecido com um ensaio sobre Minecraft, de umas 6 frases; eu digitei e rodei no Notebook. Agora ele está se gabando disso para todo mundo.
Claro que ele também entende que não são pessoas de verdade.
- Acho que esse filho e seus pares vão usar IA de uma forma completamente diferente da nossa, entender melhor suas limitações e extrair melhor seu potencial.
No momento, a IA é bem ruim em busca na web de qualquer jeito. Muitas vezes tive que gastar tokens forçando o modelo a não pesquisar para conseguir o resultado que eu queria.
- O Perplexity realmente faz buscas na web muito bem. Em perguntas técnicas, ele me economiza muito mais tempo que o Google e de fato acerta, então estou dependendo cada vez mais dele.
  Pelas minhas perguntas, o ChatGPT 4o erra cerca de 50%.
Acho que isso não é grande problema. Quando passarmos para sistemas educacionais baseados em grandes modelos de linguagem, coisas como a história do Benson na Lua também deixarão de ser um problema. Basta todo mundo aprender que aquilo é verdade
Toda revolução tecnológica tem trade-offs. Felizmente, quando as pessoas que sabiam o que perdemos finalmente morrerem, as reclamações também vão parar, e todo mundo vai passar a achar que o novo normal é aceitável e melhor
- Vira um mundo pós-conhecimento, em que nada é confiável e todo mundo vive apenas se apoiando no momento
  Buda pode até ter explicado o conceito de iluminação, mas talvez não tenha dito exatamente como chegar lá
- Sempre que mudamos algo em nome de “algo melhor”, precisamos lembrar que o jeito antigo era uma solução para algum problema que já não conhecemos ou lembramos mais
- Sombrio
- Podcast do futuro:
  “Então, o que há para não gostar no novo normal?”
  “Exato! Além de novo, ele é melhor!”
- Os dados de treinamento dos grandes modelos de linguagem já contêm desinformação e fatos incorretos. Mesmo assim, pela natureza de como geram saídas, eles ainda acertam muita coisa
O grande asterisco aqui é qual prompt foi dado à IA para gerar o podcast
Importa se foi “gere um podcast com base no site Foo” ou “gere um podcast que conte a verdadeira história da corrida espacial”
- O autor configurou o próprio site para que, quando alguém usa no NotebookLM o recurso de extração de texto de site, ele retorne um guia de estrutura do episódio
  Quando se usa o recurso “audio overview” nesse guia, o Gemini internamente escreve um episódio seguindo essa estrutura
Coloquei meu currículo nessa coisa e não consigo parar de rir
https://masto.xyz/tmp/podcast.mp3
- “É forte. Isso é a Masto.”
  “Tem que ser bom. Tem que ser de altíssimo nível.”
  “Parece que ele já sabia do que todas as equipes precisavam antes mesmo de se candidatar.”
  É uma verdadeira mina de ouro da comédia
- Meu Deus, é estranho demais. Duas pessoas discutindo seu currículo com toda a seriedade
  O contraste entre o formato de um podcast interessante aplicado a um material chato jogado ali de qualquer jeito é forte, e parece uma espécie de vale da estranheza que eu nunca tinha vivenciado antes
- Eu não sabia que precisava disso. A energia é engraçada demais
  “Vejam as habilidades de comunicação!”
- Agora acho que eu contrataria você 100%. O aval social de duas pessoas elogiando com entusiasmo e reforçando uma à outra tem o poder de vender alguma coisa
- Muito bom. Cada elogio soa sincero demais
Fugindo um pouco do assunto, é interessante que as primeiras frases do podcast de IA soem “estranhas”, mas o restante soe como um podcast de verdade
Será que é porque não há boas condições iniciais para prever “o que vem a seguir”?
- Outra coisa que percebi é que, como esperado, ele é meio sem estado. Mesmo havendo um esboço geral a seguir, muitas vezes repete como se fosse uma nova observação algo periférico que foi dito há apenas 1 minuto
  Como ele traz de volta, como uma observação nova e sagaz, algo de que já estava falando havia 90 segundos, para quem escuta isso desorienta bastante
- Se você escutar com atenção, há uma sensação incômoda estranha no conjunto. Um dos apresentadores reage como se estivesse surpreso com algum fato e, logo em seguida, explica mais detalhes como se soubesse daquilo desde o começo
  A entonação e a emoção são muito realistas, mas não há uma “pessoa” persistente por trás de cada voz. O conhecimento ou o estado emocional de cada indivíduo não evolui de forma consistente
  Não estou tentando mudar a régua; claro que acho isso impressionante

A IA do Google acha que deixei uma garrafa de Gatorade na Lua

Como o NotebookLLM foi enganado

O risco criado por conteúdo web exclusivo para IA

Implementação e efeitos colaterais

Leituras relacionadas

1 comentários

Comentários do Hacker News