A internet, cheia de lixo informacional gerado por IA

(aftermath.site)

6 pontos por GN⁺ 2024-01-12 | 1 comentários | Compartilhar no WhatsApp

A busca na internet já foi fácil a ponto de “let me Google that for you” funcionar, mas agora há cada vez mais situações em que é preciso confirmar com outra pessoa por causa de informações geradas por IA e resultados de busca incorretos
O Google mostra snapshots de páginas dentro dos resultados de busca em vez de links, expondo até informações erradas, como a resposta de IA do Quora dizendo que “ovos podem derreter”
A queda na qualidade da busca vai além do problema de respostas simples de IA e abala o próprio contexto da pesquisa, como no caso em que uma busca por inflamação dos seios da face leva a resultados sobre inflamação peniana
Um usuário do Twitter revelou uma forma de roubo de tráfego em que exporta URLs indexadas de sites concorrentes e, em seguida, usa IA para criar rapidamente textos semelhantes e ultrapassá-los nos resultados do Google
A suspeita de textos escritos por IA e autores falsos na Sports Illustrated mostra como a produção de conteúdo voltada à exposição em buscas e à receita publicitária prejudica a confiança dos leitores

Como a busca do Google coloca respostas erradas em destaque

No passado, a confiança nas buscas era tão alta que era possível zombar de alguém que fazia uma pergunta online dizendo para “procurar diretamente no Google”, e a expressão “let me Google that for you” era usada nesse contexto
Hoje, há tanto lixo informacional gerado por IA na internet que ficou mais difícil verificar informações apenas pelos resultados de busca, aumentando a chance de precisar perguntar a uma pessoa novamente
Em vez de mostrar apenas links para sites, o Google expõe partes das páginas em formato de snapshot em menus suspensos, permitindo que o usuário leia o resultado sem clicar
- Esse método pode fazer com que informações erradas apareçam antes de o usuário verificar o contexto original
- Em setembro de 2023, houve um caso em que o Google trouxe uma resposta gerada por IA do Quora e informou incorretamente que ovos poderiam derreter
Também foi reproduzido um caso em que uma busca por inflamação dos seios da face retornava resultados relacionados a inflamação peniana, revelando que a própria relevância dos resultados de busca está ficando instável

Casos em que conteúdo de IA ocupa os resultados de busca

Um usuário do Twitter afirmou ter executado um “heist” de tráfego na internet para ultrapassar um determinado site nos resultados de busca do Google
- Verificou o índice do site-alvo
- Exportou as URLs dos artigos
- Usou IA para escrever rapidamente textos com base nessas URLs
- Descreveu a tarefa de editar manualmente os títulos das páginas como “opcional”
A Sports Illustrated passou a ser alvo de suspeitas, após reportagem da Futurism, de que vários textos foram escritos por IA e atribuídos a pessoas inexistentes como autores
- Quando a Futurism pediu comentários, esse conteúdo foi removido
- Depois, a Sports Illustrated afirmou que os textos haviam sido escritos por terceiros, não eram gerados por IA, e que os autores usavam pseudônimos
- Essa explicação não esclarece por que os textos foram removidos após a consulta da imprensa
- Também permanece o fato de que a Sports Illustrated declarou publicamente, em uma matéria do Wall Street Journal de fevereiro de 2023, que usaria IA para gerar conteúdo e ideias de artigos
A internet está se tornando menos um repositório onde pessoas compartilham informações com outras pessoas e cada vez mais um espaço em que máquinas se comunicam com máquinas
A expressão “let me Google that for you” já não é mais tão válida quanto antes, e cresce a possibilidade de encontrar informações erradas ou fabricações completas nos resultados de busca
Os responsáveis pelas decisões financeiras da Sports Illustrated são criticados por estarem mais interessados em manipular resultados de busca do Google e obter receita publicitária com isso do que em atender bem seus leitores

1 comentários

GN⁺ 2024-01-12

Comentários do Hacker News

Com a disseminação dos LLMs, perdemos uma heurística útil. Antes, dava para filtrar rapidamente posts sem valor vendo textos com ortografia e gramática horríveis, mas isso não funciona nem um pouco contra lixo gerado por IA
A fluência é perfeita e chega a ser melhor que a da maioria das pessoas, então qualquer um consegue produzir instantaneamente um texto com aparência plausível. Nem é mais preciso contratar redatores como os antigos spammers de SEO, e o caso do curl sofrendo com relatórios falsos de bugs gerados por IA é um bom exemplo: https://news.ycombinator.com/item?id=38845878
Isso é só o começo e vai ficar muito pior, a ponto de talvez um dia ser impossível separar o joio do trigo
- Precisamos doar mais para o archive.org. A Wayback Machine talvez acabe removendo tudo o que surgiu depois de 2020 e vire a única forma de encontrar dados úteis na internet
- Os ciclos se repetem. Os mecanismos de busca eram muito melhores para descobrir sites vinculados, mas aí as pessoas começaram a jogar o jogo do SEO e despejar textos falsos e links cruzados, todo mundo passou a repetir os mesmos clichês e a qualidade da busca despencou
  Se a ideia é só mastigar e repetir os mesmos pensamentos, não há motivo para não automatizar isso, e no fim as pessoas esquecem até de onde veio originalmente um bom texto. Por exemplo, LLMs substituindo o Stack Overflow, e o Stack Overflow substituindo a documentação técnica. Quando o custo de produção é praticamente zero, ninguém liga para qualidade, até que todo mundo se canse o suficiente e o comportamento volte a oscilar para uma web selecionada por curadoria e boca a boca
- No ensino médio, eu fazia copywriting para SEO, e a saída do ChatGPT é quase do mesmo nível dos textos que eu produzia naquela época. O ponto principal era inserir certas palavras-chave e escrever textos rasos, levemente informativos e vagamente relacionados ao que se queria vender
  Com o tempo, a inteligência da IA pode acabar entrando num tipo estranho de efeito de redemoinho. Hoje, se você faz ao ChatGPT uma pergunta no estilo do Stack Overflow, recebe instantaneamente uma resposta no estilo do Stack Overflow, mas a veracidade e a precisão são quase uma aposta. Se no futuro as pessoas passarem a depender mais disso e a postar menos no Stack Overflow, o poço de informação com que a IA aprende pode secar, restando só um loop pegajoso que acerta de vez em quando. Isso pode virar um problema à medida que a tecnologia avança, e talvez nessa hora ela passe a ser treinada com documentação técnica
- Ortografia e gramática ruins também podem simplesmente indicar um texto escrito por alguém que não é falante nativo
- Verdade. Eu já achava que sentia falta da internet de antes de a ClosedAI estragá-la, mas agora já dá vontade de voltar para a internet de 2020
  Acho que a pesquisa com LLMs vai trazer o colapso da sociedade de várias formas. Um amigo meu está fazendo mestrado e todo mundo está escrevendo respostas com ChatGPT, e aquele jeito de concluir com um resumo depois de frases politicamente cautelosas é óbvio demais. Eu sinceramente queria que fossem expulsos
Concordo com o título, mas não acho que a internet tenha mudado tanto assim antes e depois do GPT-4, 3 e 2. Textos escritos por estagiários ou assistentes virtuais indianos sobre temas gerais já eram, na maioria, tão ruins quanto material gerado por IA, e também não eram fáceis de distinguir
Também não ajuda o fato de que os mecanismos de busca hoje classificam priorizando autoridade em vez de correspondência entre a consulta e o texto da página. As pessoas nem usam tanto a web assim agora, vivem dentro de apps, e navegar por páginas no celular geralmente só acontece quando vão “dar um Google” em alguma pergunta. Mesmo assim, normalmente não passam de um ou dois níveis antes de voltar para a experiência do app
A web já é péssima há muito tempo e piorou, mas talvez em breve isso deixe de importar. Os leitores eram como o sapo na panela de água sendo aquecida aos poucos, e agora a temperatura subiu de vez e eles perceberam a situação
Se a “web” quiser sobreviver no futuro, acho que terá de migrar não só para uma nova camada de anonimização, mas também exigir trocas monetárias frequentes para dificultar a geração em massa de material de baixa qualidade. Se 90% do público não quiser pagar, então pode continuar consumindo lixo. A analogia do sapo na panela é no sentido de que o volume de spam aumentou muito
- Concordo totalmente. Os spammers de SEO já tinham arruinado a web pública anos atrás, e o Google fez o possível para permitir isso em troca de receita com anúncios
- Você está ignorando a variável central, que é a quantidade. Já existiam estagiários e conteúdo terceirizado, mas ainda assim era lixo produzido por pessoas que gastavam tempo nisso
  Agora, o fator que limitava a quantidade desse lixo desapareceu
- O conteúdo da web está escorrendo para redes sociais, notícias e ebooks que viraram “livros”, formando um redemoinho intangível de informação manipulada
  Quando esgoto entra no abastecimento de água, ninguém está seguro. Não dá para ficar tranquilo só porque você usa uma torneira longe da fonte de contaminação
- Concordo que sempre houve conteúdo de baixa qualidade. Mas o problema agora é a escala da desinformação que pode ser gerada
  A quantidade aumentou ou continua aumentando, e agora ficou muito mais difícil encontrar algo legítimo e bem feito. A observação sobre os apps é boa
- Fico pensando no quanto a próxima geração de IA pode ficar boa em fazer curadoria da web
  Como seria se todo publicador fosse automaticamente avaliado por IA em termos de capacidade de previsão, viés e precisão factual em horizontes de 1, 2 e 5 anos?
Nunca pensei que diria isso, mas com a clearnet em uma situação tão frágil, a ideia de toda a informação ficar silozada dentro do Discord já não parece tão ruim. Se não for indexada por mecanismos de busca, quase não há chance de aparecer ao lado de lixo de IA ou ser usada como dado de treinamento
No fim, o futuro da internet são as pessoas. Não dá mais para confiar nas máquinas nem para tarefas básicas que antes faziam bem, e, ao escolherem não conseguir fazer tarefas complexas, ainda abriram mão da eficiência nas tarefas básicas
- A dinâmica fundamental que estraga toda tecnologia é a comercialização excessiva. Hoje, a publicidade destruiu completamente os incentivos da internet, especialmente da web
  Na era do varejo online, as transações e o modelo de negócio eram transparentes, mas, nos bastidores da economia da publicidade e da atenção, tudo fica nebuloso e distorcido. Praticamente todos os participantes estão em conluio para monetizar o tempo livre e a atenção das pessoas, empurrando consumo e matando isso alegremente
  Entrei no Google em 2010 e saí em 2019; em 2010 a receita anual era de cerca de US$ 30 bilhões, e no ano passado foi de US$ 300 bilhões. Como a empresa manteve um crescimento de 20% ao ano de forma bem consistente desde a fundação, para atingir isso em 2024 seriam necessários US$ 60 bilhões de nova receita. Ou seja, é preciso encontrar em um ano o equivalente a duas Googles de 2010 em receita, e a Google de 2010 levou 12 anos para ser construída, então isso não faz sentido
- Discordo fortemente. Há muito tempo respondo perguntas sobre imigração online, e com frequência as pessoas comentam em threads de anos atrás ou me perguntam em particular sobre aquele conteúdo. Ou seja, conteúdo público ajuda muita gente ao longo do tempo
  Já o conteúdo de grupos privados no Facebook tem uma vida útil de, no máximo, alguns dias. Se o objetivo é compartilhar conhecimento útil com o público mais amplo possível, grupos no Discord são um grande retrocesso
- A história não muda quando o Discord começar a vender esses dados para empresas de IA?
- Não vejo o que ser usado como dado de treinamento tem a ver com este problema. O ponto central é a capacidade de distinguir lixo de IA de informação precisa
- O Discord também é pesquisável: https://www.answeroverflow.com/
A saída é a autenticidade, e só conteúdo assinado pode fornecer isso. Nada pode ser aceito pelo valor de face; pode ter sido gerado ou falsificado
Quando qualquer pessoa pode publicar qualquer coisa, e a IA publica ainda mais até esmagar os humanos em volume, só dá para filtrar se nos apoiarmos em reputação e autenticidade para saber quem produziu o quê e quem disse o quê. A web de confiança já foi tentada antes, mas nunca saiu do canto dos excêntricos de chapéu de papel-alumínio. Talvez seja hora de tentar de novo
- Conteúdo assinado não garante em nada que o texto tenha sido escrito ou editado por uma pessoa. Por causa do risco de roubo de chave, nem sequer garante que quem assinou realmente publicou aquilo
  Verificar a autenticidade de conteúdo digital é fisicamente, filosoficamente e tecnicamente impossível. Na fronteira entre o mundo analógico e o mundo digital, sempre dá para enganar
  É pelo mesmo motivo que blockchain nunca teve uso bem-sucedido para autenticação de cadeia de suprimentos. Dá para verificar que o item 523 tem um hash válido anexado, mas não dá para provar que esse hash foi aplicado ao item 523 real e não a uma falsificação
- Acho que o verdadeiro jogo está em sistemas de identidade verificável. Se vier uma onda de sistemas de identidade com suporte a atestação, tanto faz se a IA produzir resultados de alta qualidade ou lixo puro em massa
  Neste último caso, seria uma grande vitória para os donos de plataforma como Apple, Google e Microsoft (via TPM), porque eles conseguem provar que o usuário “não é um bot”. Não me surpreenderia se, daqui a 5 anos, para participar de forma significativa online você precisasse ter relação com um desses três
  Mesmo que a IA “fracasse”, continuaria existindo motivo para empurrá-la, porque dá para migrar uma parcela relevante dos usuários da internet para um modelo de assinatura de identidade e atestação. Se você não pagar, seu conteúdo será basicamente tratado como lixo gerado e não terá exposição
  Do lado corporativo, pode surgir uma estrutura que faça os antigos esquemas de SSL e assinatura de código parecerem filantropia. Algo como aplicar BIMI a todo conteúdo publicado, com cobrança por item, também é possível. Pode até surgir discriminação de preço em que, quanto mais você paga, mais “confiável” você é. No fim, temo que identidade e autenticação de serviços governamentais passem para empresas privadas como Google ou Apple, e que a identidade real das pessoas fique vinculada à atestação dessas empresas
  1. https://www.w3.org/TR/webauthn/#sctn-defined-attestation-for...
  2. https://bimigroup.org/
- Pergunta sincera: como isso resolve o problema? Eu também posso gerar um monte de textos lixo, assinar e publicar
  Mesmo que Apple ou Google ofereçam serviços de atestação de usuário, também não seria possível gerar e assinar automaticamente lixo de IA?
- Se a saída é autenticidade, então muitos terraplanistas aparentemente também acreditam nisso de forma bem autêntica
- A parte mais maluca é que Jaron Lanier já dizia isso 20 anos atrás, talvez até antes
O conteúdo gerado por LLM só acelerou um problema antigo. O Google foi com força na direção de aumentar a receita com anúncios e o domínio da tecnologia de anúncios, e o SEO se espalhou pelos resultados de busca em geral, então LMGTFY morreu
Hoje em dia é bem difícil conseguir informação factual sem viés só com uma consulta polidinha, então tento procurar informação primeiro no Reddit. Isso também não é cura para tudo, e nos últimos anos ficou cheio de conteúdo promocional disfarçado, mas threads antigas de quando o Reddit era menos popular e mais difícil de manipular, ou threads de comunidades pequenas, geralmente ainda são uma boa opção
- Depois de ver o Google não conseguir encontrar a página de documentação de uma classe do ThreeJS com palavra-chave nenhuma, acabei mudando para o Kagi. Eu precisava colar a própria URL da página para ela aparecer no topo dos resultados
  O Kagi encontrou na primeira tentativa só com o nome da classe. Busca paga é o caminho, e os incentivos de anúncios entram em conflito com a busca. Configurei o Kagi como busca padrão da barra de endereços e está sendo ótimo
- O ponto a lembrar sempre é que a busca do Google não entrega resultados de busca, ela gera uma página sofisticada adaptada à bolha do usuário. Facebook e Twitter são a mesma coisa, só mudam os algoritmos
  A busca do Google não devolve os mesmos resultados para pessoas diferentes mesmo com a mesma consulta. Isso é diferente de mecanismos históricos como o AltaVista ou do ElasticSearch e, mesmo que ainda seja chamada de motor de busca, há bons motivos para não tratá-la como um. Está mais para um muro de bobagem personalizada para publicidade
- Você acha que os spammers não estão usando IA para postar no Reddit agora
Já tenho idade suficiente para lembrar da época em que a internet era cheia de merda orgânica de cachorro
- O ser humano é o gerador de bobagem original. A IA só está fazendo o que humanos sempre fizeram
- Está na hora de largar o Google e voltar para os webrings
- Hoje em dia ainda existem vendedores de bobagem orgânica artesanal, mas é caro
- Você quer dizer coisas como spam de resposta montado raspando o Stack Overflow. Isso não foi no ano passado. Hoje quase não uso mais o Google e só pergunto ao Bing chat
- Pelo menos a besteira feita por humanos é divertida
No fim das contas, publicidade existe para ganhar dinheiro, e até bots terem cartão de crédito, esse dinheiro vem de humanos. Se em algum setor o “engajamento” ou o tráfego crescer de repente sem se converter em gasto humano, empresas como o Google vão perceber isso no balanço
O Google vai começar a reagir quando esse problema aparecer com força suficiente no orçamento. As demissões no setor de tecnologia de que se ouve falar em várias empresas, e a história sobre o Google em outra thread do HN hoje, podem ser sinais de para onde o vento está soprando
- A IA não consome conteúdo, ela o gera. Se as pessoas forem facilmente enganadas por anúncios ou conteúdo feitos por IA e comprarem produtos falsos ou de baixa qualidade, isso vai continuar impulsionando a receita do Google
  O único motivo de o Google odiar manipulação de SEO é que sites conseguem ocupar espaço no topo da busca sem promoção paga; a qualidade do produto não importa
  O problema só aparece quando houver um colapso de confiança, em que as pessoas se queimam com tantos produtos ruins que deixam de confiar em sites ou resultados de busca em que antes confiavam. Por causa do meu trabalho, vejo muito anúncio no Instagram de remédios do mercado cinza e ignoro porque sei que não passaram por validação da FDA e, na maioria dos casos, são medicamentos falsos ou químicos de pesquisa disfarçados de Amanita Muscaria ou Delta-8 THC
- O Google pode perceber, mas como a coisa em que os humanos deixaram de gastar dinheiro não é o Google, não há incentivo para gastar dinheiro tentando impedir isso
  As empresas que anunciam no Google podem sentir a queda no retorno sobre investimento dos anúncios, mas provavelmente vão demorar a sair porque veem poucas alternativas. Se a gente esperar isso chegar ao balanço do Google, dá medo pensar no que vai acontecer com a internet até lá
- Você parece otimista demais com relação a gastos com ad tech. Os maiores players já fazem isso diretamente
- É uma visão interessante, mas o Google só vai ser atingido quando os anunciantes concluírem que estão desperdiçando dinheiro com publicidade online
  Já existem temas que deveriam ter secado, mas talvez a fraude esteja mantendo a máquina de anúncios dessas áreas viva. Em fitness ou perda de peso, por exemplo, o Google é quase inutilizável. Quando reformei a casa, também descobri que ficou impossível pesquisar materiais de construção, especialmente tinta. No fim, ir à loja e perguntar era a única forma de conseguir informação confiável e recomendações
  O Google ainda funciona em muitas áreas, mas aquilo em que ele é realmente bom é anúncio de produto. Se você sabe o que quer comprar, o motor de anúncios do Google encontra, mas você precisa saber exatamente o que quer
- Por que isso não levaria a gasto humano. Se o anúncio é real e o visitante é real, não importa se o conteúdo é real
  Na verdade, quanto mais genérica e sem graça for a página, maior pode ser a chance de as pessoas clicarem nos anúncios
Mesmo antes da tomada pela “IA”, já estava tudo cheio de bobagem produzida por humanos sob exigência do SEO, então não se perdeu tanta coisa assim nos últimos anos. Estou no setor há bem mais de 10 anos e digo isso há quase tanto tempo
- Se isso for verdade, então a conclusão é que todas as notícias e toda a história dos últimos 10 anos também são bobagem produzida por humanos. Não estou dizendo que está errado, mas é preciso levar a crença até as suas conclusões
Não há diferença. A busca na web já é inútil há mais de 15 anos. Agora está só um pouco pior do que antes, e a situação anterior já era fazer uma pergunta e receber resultados cheios de páginas de marketing, ou então de lixo raso de marketing em formato de “blog”
Não quero confiar a resposta para uma pergunta como como limpar um vaso sanitário a alguém cujo trabalho é “produção de conteúdo” ou “blog para monetização”. A diferença entre os exemplos do texto e os resultados de 10 anos atrás é só que os primeiros estão claramente errados, enquanto os segundos seriam o tipo de coisa que levaria dias para refutar, a menos que você trabalhasse naquela área
Se você leu Anathem, então como Ita filtrar o lixo da Reticulum é, de qualquer forma, o nosso trabalho. A sensação agora é de que temos que fazer isso mesmo
https://en.wikipedia.org/wiki/Anathem
https://anathem.fandom.com/wiki/Ita
https://anathem.fandom.com/wiki/Reticulum
- Isso me faz lembrar do trecho de Anathem em que, no começo da Reticulum, ela ficou tão bagunçada com informações defeituosas, ultrapassadas ou descaradamente enganosas que se tornou quase inútil, e por isso a filtragem de lixo passou a ser importante
  As empresas poluíam deliberadamente o poço para vender produtos que filtravam esse lixo, e em vez de caracteres aleatórios produziam “lixo bem-feito”, ou seja, documentos apresentáveis com 100 frases verificavelmente verdadeiras e 1 frase sutilmente errada. No começo era preciso contratar pessoas, mas quando os militares se interessaram, o programa Artificial Inanity evoluiu e se espalhou para a área comercial e para botnets
  Gosto de Artificial Inanity como expressão para descrever LLMs
- Eu já achava, desde quase 25 anos atrás, que esse era o futuro. Veja o #5: https://ymlibrary.com/download/Topics/Self/Work-School/Work-...

A internet, cheia de lixo informacional gerado por IA

Como a busca do Google coloca respostas erradas em destaque

Casos em que conteúdo de IA ocupa os resultados de busca

Leituras relacionadas

1 comentários

Comentários do Hacker News