Os grandes modelos de linguagem podem ameaçar os bens públicos digitais?

kuroneko · 2023-07-18T15:33:20+09:00

Análise sobre o impacto dos LLMs no conteúdo da web a partir da atividade no Stack Overflow após o ChatGPT. A atividade no Stack Overflow caiu de 16% a 25% após o ChatGPT. Quanto mais usada e conhecida a linguagem, maior foi a queda. Números obtidos em comparação com sites da China e da Rússia, onde o ChatGPT foi bloqueado, e com sites relacionados à matemática, que são mais difíceis de serem substituídos por IA. O número de votos nas postagens não mudou, então não dá para concluir que a qualidade das respostas tenha melhorado. Isso indica que a quantidade de dados gerados por humanos está diminuindo desde o ChatGPT. Com isso, vários problemas podem surgir. A quantidade e a qualidade do material disponível em toda a internet podem cair, e a eficiência dos dados de treinamento de IA também pode diminuir. Como os dados do ChatGPT são de propriedade exclusiva da OpenAI, a diferença tecnológica entre empresas pode aumentar ainda mais. O escopo da exploração humana pode se estreitar, e o desenvolvimento de novos produtos ou linguagens que a IA ainda não aprendeu pode ser prejudicado. As disparidades entre países, faixas de renda e outros grupos sociais que têm mais dificuldade para se beneficiar dos LLMs podem se ampliar ainda mais. Uma questão sobre a qual precisamos refletir para um ecossistema sustentável da web e da IA.

(arxiv.org)

11 pontos por kuroneko 2023-07-18 | 5 comentários | Compartilhar no WhatsApp

Análise sobre o impacto dos LLMs no conteúdo da web a partir da atividade no Stack Overflow após o ChatGPT.
A atividade no Stack Overflow caiu de 16% a 25% após o ChatGPT.
- Quanto mais usada e conhecida a linguagem, maior foi a queda.
- Números obtidos em comparação com sites da China e da Rússia, onde o ChatGPT foi bloqueado, e com sites relacionados à matemática, que são mais difíceis de serem substituídos por IA.
O número de votos nas postagens não mudou, então não dá para concluir que a qualidade das respostas tenha melhorado.
Isso indica que a quantidade de dados gerados por humanos está diminuindo desde o ChatGPT.
Com isso, vários problemas podem surgir.
- A quantidade e a qualidade do material disponível em toda a internet podem cair, e a eficiência dos dados de treinamento de IA também pode diminuir.
- Como os dados do ChatGPT são de propriedade exclusiva da OpenAI, a diferença tecnológica entre empresas pode aumentar ainda mais.
- O escopo da exploração humana pode se estreitar, e o desenvolvimento de novos produtos ou linguagens que a IA ainda não aprendeu pode ser prejudicado.
- As disparidades entre países, faixas de renda e outros grupos sociais que têm mais dificuldade para se beneficiar dos LLMs podem se ampliar ainda mais.
Uma questão sobre a qual precisamos refletir para um ecossistema sustentável da web e da IA.

5 comentários

soupdog 2023-07-25

Parece que, à medida que os modelos de linguagem passam a substituir a comunicação que acontecia no Stack Overflow, o conhecimento compartilhado na internet por meio da interação entre as pessoas está diminuindo gradualmente. Pegando emprestada a metáfora da catedral e do bazar, parece que estamos nos tornando uma catedral monopolizada por alguém, no sentido mais exato da palavra.

laeyoung 2023-07-19

O problema que mais me preocupa e que senti pessoalmente é que está acontecendo aquilo que, na economia, chamam de “o ruim expulsa o bom”.

Antes do surgimento do ChatGPT, para ter aprovação no Google Ads, até o fim do ano passado bastava escrever uns 8 posts no blog. Agora, mesmo escrevendo o dobro disso, a aprovação não sai por falta de conteúdo ou por conteúdo inválido. E isso mesmo sendo textos todos escritos à mão.

Como aumentou o número de blogs gerados automaticamente por IA, os critérios de aprovação do AdSense ficaram mais rígidos, e ninguém sabe onde isso vai parar. Por causa disso, acabei desistindo de tentar conseguir aprovação no AdSense para um blog de críticas de cinema no qual eu escrevi por quase 3 meses.

Como quem faz a verificação não consegue distinguir se isso é “bom” (conteúdo escrito por uma pessoa) ou “ruim” (feito por IA, ou feito por IA e depois editado), a tendência é que passem a elevar cada vez mais os critérios. No fim, fico pensando se não vamos acabar vendo de novo aquela situação que vimos no começo deste ano, em que só páginas web geradas automaticamente apareciam no topo dos resultados de busca do Google.

cosine20 2023-07-19

Eu tendo a ver isso de forma mais positiva.
Os métodos tradicionais de busca de informação exigiam duas coisas: a “capacidade de inserir termos de busca adequados no mecanismo de busca” e a “capacidade de selecionar, entre os resultados, aquilo que eu realmente queria”. O desgaste gerado por isso era considerável.
Eu só queria encontrar um código para fazer algo simples, mas, quando entrava em um post do StackOverflow que aparecia nos resultados da busca, havia três ou quatro respostas com código. Algumas recebiam downvotes por serem baseadas em especificações antigas da linguagem e, portanto, mais complicadas; outras até eram a resposta aceita, mas, com atualizações de versão, já não funcionavam direito, então as pessoas passavam a reclamar nos comentários e a buscar soluções entre si. Esse tipo de coisa acontecia com mais frequência do que se imagina.

No fim, olhando para o quadro geral, desde a era da informação continua sendo necessário ter a “capacidade de selecionar, no meio de uma inundação de informações, aquilo que eu realmente quero”, mas sinto que as opções disponíveis para mim estão ficando numerosas demais, a ponto de julgar tudo isso se tornar incômodo e cansativo.

Nesse sentido, penso que modelos de linguagem de grande porte bem treinados podem, na verdade, permitir certo nível de divisão de trabalho, porque conseguem oferecer, com uma UX razoável, desde informações bem triviais que as pessoas procuram com frequência até informações de nível um pouco mais avançado.
Perguntas como informações muito recentes, para as quais é difícil obter uma resposta adequada com um LLM, ou questões complexas em que vários contextos diferentes estão entrelaçados, ficariam a cargo de serviços de perguntas e respostas como o StackOverflow.

Ainda assim, acho que permanece o desafio de saber se os LLMs conseguem selecionar e fornecer ao público informações precisas com base em fundamentos claros.

kuroneko 2023-07-18

Thread no HN

Claro, como é um estudo um tanto limitado que analisou apenas alguns sites, pode haver bastante viés,
mas no fim essa parte de que a lacuna tecnológica pode aumentar de várias formas realmente parece preocupante.

Em um dos comentários, alguém disse: "A IA concentra riqueza ao redirecionar para as empresas de IA o dinheiro gerado pelo valor do conteúdo criado pelas pessoas",
e isso realmente faz sentido para mim.

jujumilk3 2023-07-18

Puxa, parece que não dá para colocar emoji. Concordo.

Os grandes modelos de linguagem podem ameaçar os bens públicos digitais?

Leituras relacionadas

5 comentários