Grandes modelos de linguagem reduzem o compartilhamento de conhecimento público em plataformas online de perguntas e respostas

(academic.oup.com)

2 pontos por GN⁺ 2024-10-14 | 1 comentários | Compartilhar no WhatsApp

Resumo

Impacto dos grandes modelos de linguagem (LLMs)
Os grandes modelos de linguagem (LLMs) têm potencial para substituir dados gerados por humanos e recursos de conhecimento. No entanto, essa substituição pode levar a uma redução dos dados de treinamento necessários para o desenvolvimento de modelos futuros. Este estudo documenta que, com o lançamento do ChatGPT, a atividade no Stack Overflow diminuiu.
Impacto do ChatGPT
Dentro de 6 meses após o lançamento do ChatGPT, a atividade no Stack Overflow caiu 25% em comparação com plataformas semelhantes na Rússia e na China e com fóruns de matemática. Isso é interpretado como um limite inferior do verdadeiro impacto do ChatGPT sobre o Stack Overflow. A queda é maior em posts relacionados às linguagens de programação mais usadas.
Efeito de substituição dos LLMs
Os LLMs estão substituindo não apenas conteúdo redundante ou de baixa qualidade, mas também conteúdo de alta qualidade. Usuários do ChatGPT têm menor probabilidade de postar no Stack Overflow e não visitam a plataforma regularmente. Isso sugere que a rápida adoção dos LLMs pode reduzir a produção de dados públicos necessários para o treinamento, gerando consequências importantes.
Impacto por linguagem de programação
O impacto do ChatGPT é maior em linguagens amplamente usadas, como Python e Javascript. Em linguagens específicas, como CUDA, os posts aumentaram após o lançamento do ChatGPT. Isso mostra que o interesse por software relacionado à IA está crescendo.

Resumo do GN⁺

Este estudo destaca os impactos negativos da rápida adoção da IA sobre a produção de dados públicos ao analisar o efeito de grandes modelos de linguagem como o ChatGPT em plataformas online de perguntas e respostas.
À medida que o uso do ChatGPT aumenta, a atividade em plataformas como o Stack Overflow diminui, o que pode afetar a qualidade dos dados de treinamento de futuros modelos de IA.
Essas mudanças podem ter impactos importantes na economia digital e nas formas de acesso à informação, levantando preocupações sobre a sustentabilidade do ecossistema de IA.
Outros projetos com funções semelhantes incluem repositórios do GitHub relacionados a linguagens de programação.

1 comentários

GN⁺ 2024-10-14

Opiniões no Hacker News

No fim, o problema é em que os LLMs vão se basear. Eles não criam informações novas; funcionam regurgitando e combinando informações existentes, então seu desempenho cai bastante em código para o qual amostras públicas ou respostas no Stack Overflow/Reddit não são suficientes
- Como referência, o GPT o1 me ajudou a resolver um caso de uso bem complexo de epub.js, uma biblioteca open source com documentação opaca e poucos exemplos públicos
  Foram necessárias algumas idas e vindas para chegar a uma solução que funcionasse, mas no fim deu certo, e fiquei curioso se a IA encontrou e digeriu bem materiais obscuros da internet, ou se entendeu uma documentação difícil melhor do que eu. Se for o segundo caso, a necessidade de amostras públicas pode até diminuir
- Pode surgir um efeito colateral interessante: como os LLMs não conhecem bem certas coisas, talvez as pessoas parem de criar indiscriminadamente novas linguagens de programação e frameworks
  Já estamos nos inclinando para tecnologias que os LLMs dominam bem, porque a vantagem de fazer um LLM resolver 90% do problema é maior do que o benefício de uma linguagem ou framework apenas um pouco melhor. Eu detesto Python como linguagem, mas é difícil negar que LLMs se saem muito melhor em Python do que em muitas outras linguagens
- Ao contrário da ideia de que “não cria informações novas”, a maior parte do compartilhamento de conhecimento em plataformas de perguntas e respostas online não é uma atividade criativa. Exceto para os próprios desenvolvedores de um sistema, trata-se mais de perguntar interminavelmente sobre os mesmos problemas que todo mundo enfrenta, e boa parte disso substitui plataformas de busca
- Aquilo em que os LLMs podem se basear é a documentação oficial
  Vou inventar um número, mas dá para defendê-lo: 90% das informações do Stack Overflow são repetições de algum manual em algum lugar. O problema é que muitas vezes é difícil encontrar a informação desejada dentro da documentação relevante e, mesmo quando se encontra, ela é difícil de ler; LLMs são muito bons em ler e entender documentação
- LLMs ficam alternando mais ou menos entre o jeito antigo e o novo, e, à medida que o código espaguete de LLM cresce, eles deixam de conseguir adicionar funcionalidades com precisão sem quebrar a lógica existente
  As demonstrações técnicas que criam um app inteiro instantaneamente com um ou dois prompts são frágeis. Se você não souber o que está fazendo, enquanto continua adicionando recursos, ele vai ficar mudando a forma de chamar APIs, a forma de gerenciar estado e a biblioteca de CSS. Por exemplo, em um arquivo que já tem 3 funções nativas fetch, de repente ele sugere instalar e usar axios sem motivo
  Também pode apagar trechos como {/* rest of your functions here*}
  Depois de um tempo, só dá para usar com segurança em tarefas tediosas como loops ou switch, então os empregos de desenvolvedores parecem seguros por enquanto
O artigo diz que os LLMs estão reduzindo o compartilhamento público de conhecimento, e que o efeito não se limita a substituir conteúdo duplicado, de baixa qualidade ou de nível iniciante, mas a argumentação é fraca e o efeito não é tão sensacional quanto o título sugere
Primeiro, para o teste proposto de que LLMs substituem posts de baixa qualidade, eles mostram apenas a Figure 3 e não apresentam resultados de regressão. Por outro lado, relatam testes para uma classificação arbitrária de experiência do usuário, como considerar alguém experiente se postou 10 vezes. Fica a dúvida de por que omitiram o teste por qualidade do post e mostraram os resultados de “experiência” em buckets arbitrários
Segundo, a própria Figure 3 mostra mudanças de tendência para perguntas boas e neutras. As perguntas boas estavam em queda e depois ficaram estáveis; as neutras estavam em alta e depois ficaram estáveis. As perguntas ruins continuam caindo, sem uma mudança de tendência perceptível. Isso sugere até a conclusão oposta: que os LLMs estão substituindo conteúdo de baixa qualidade
A conclusão precisava de uma formulação mais forte, e a pesquisa não recompensa bem resultados cuidadosos, mas nada surpreendentes. Por isso, dá a impressão de que saiu um título sensacionalista e alguns resultados aparentemente omitidos
- Não é exatamente o assunto deste texto, mas alguém no HN já descreveu bem um fenômeno parecido. A internet está se balcanizando. Não é um conceito novo, mas, quando focamos em comunidades online, ele se encaixa especialmente bem
  As pessoas já não compartilham informações livremente em fóruns públicos como antes; elas recuam para serviços como Discord, cavam fossos e levantam pontes levadiças. É difícil culpá-las. Muitos fóruns e redes sociais vêm adotando designs e modelos de monetização cada vez mais hostis, enquanto IA/LLMs rastreiam tudo em todos os lugares, sugam tudo e depois colocam atrás de paywalls, prejudicando a chance de a fonte original ser encontrada em buscas. Algoritmos que incentivam engajamento ampliam ataques e brigas. Hoje em dia, o HN é uma exceção rara
  No fim, pessoas com interesses ou conhecimentos específicos se reúnem em comunidades privadas e conversam apenas entre si, tornando o ambiente mais difícil para quem tenta entrar
- Se os LLMs ajudarem programadores bem o suficiente para que as pessoas passem menos tempo no Stack Overflow e, em vez disso, publiquem mais código open source, isso pode ser mais valioso para todos
É natural que as pessoas reduzam suas contribuições gratuitas ao Stack Overflow. O Stack Overflow está vendendo seus contribuidores por meio de um contrato com a API da OpenAI e de inúmeros posts de blog com exageros sobre “IA”
- Não acho que esse seja o principal motivo. As pessoas não se importam muito se alguém vende o que elas criaram em uma plataforma. Grandes redes sociais como o Facebook fazem isso há anos e continuam sendo usadas. As pessoas vão ao Stack Overflow para obter respostas; por que se importariam se, mais tarde, alguém treinar um LLM com essa resposta?
- Isso parece mais uma redução de perguntas do que de respostas
- O período analisado vai até maio de 2023, um ano antes do contrato com a OpenAI. Esse contrato não tem relação com os resultados do artigo
- Isso se soma a uma tendência de longo prazo que já vinha desde por volta de 2014. Há uma insatisfação crescente com a qualidade e o tipo das perguntas, ou seja, perguntas que não seguem as diretrizes do site e demonstram pouco esforço para entender como o site deveria funcionar
Pessoalmente, muitas perguntas sobre projetos open source migraram para GitHub e Discord, então há uma mudança de plataforma além dos LLMs
Para problemas de programação mais gerais, costumo começar pelo Gemini. Muitas vezes ele responde diretamente nos termos do meu problema, sem que eu precise visitar várias páginas e montar tudo, ou, mesmo quando erra, dá pistas melhores para começar uma busca. Isso economiza o tempo de clicar em vários posts do Stack Overflow com títulos parecidos, mas diferenças importantes no conteúdo
- 2022: Discord é ruim porque não é indexado por mecanismos de busca
  2024: Discord é bom porque não é indexado por geradores de lixo de IA
- Minha experiência é exatamente a mesma: perguntas sobre projetos open source migraram para GitHub e Discord. Além disso, foi bom poder falar diretamente com os mantenedores
Assino vários subreddits de tecnologia e, nos últimos dois anos, vi muitas vezes a mesma pergunta sendo espalhada por vários subreddits. A conta tinha acabado de ser criada, ou todas as respostas eram respostas genéricas de uma linha que pareciam geradas automaticamente
Considero que são contas de bots para treinamento de IA e, antes de escrever uma explicação técnica longa, só respondo depois de confirmar primeiro se é uma pessoa de verdade perguntando
- De qualquer forma, isso está ajudando no treinamento
  No fim, o sucesso da “cultura da dádiva” via WWW, de “o conhecimento deve ser livre”, do F/OSS etc. provavelmente vai fazer toda a ética hacker à la Stallman parecer ruim
  Todos trabalhamos para a IBM^H^H^HOpenAI, mas agora não temos nada como a GPL para nos respaldar
Se isso soa como déjà vu, é porque esse conteúdo já tinha sido destacado pelos críticos em julho de 2023 com “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow”: https://arxiv.org/abs/2307.07367
Também foi discutido no HN: https://news.ycombinator.com/item?id=36763718
- A discussão no próprio meta do Stack Overflow sobre isso também vale a leitura: https://meta.stackoverflow.com/questions/425651
  Relacionados a isso, há também https://meta.stackoverflow.com/questions/425635 e https://meta.stackoverflow.com/questions/422392
No fim, os modelos de linguagem de grande escala serão o fim do open source. Basta aceitar
Modelos de linguagem de grande escala são usados para agregar e interpolar propriedade intelectual. Nesse processo, não há reconhecimento dos autores nem da linhagem, nem atribuição de fonte ou citação. Na prática, a propriedade intelectual usada para treinar o modelo se torna um patrimônio compartilhado anônimo
As recompensas sociais que muitas vezes motivam o trabalho open source, como crédito e respeito, são enfraquecidas. É assim que vai acabar
- Por que não escrever mais open source com LLMs?
  O custo de contribuição cai drasticamente. Por exemplo, US$ 100 compram 200 milhões de tokens do GPT-3.5, o que equivale a usar 10 mil tokens para desenvolver cada linha de um projeto de 20 mil linhas
  É um projeto de porte médio viável com uma única doação e uma tarde gerenciando um framework de workflow
- Não entendo esse ponto de vista
  Se os LLMs são o fim do open source, o motivo seria exatamente o que você disse: eles agregam e interpolam propriedade intelectual e transformam a propriedade intelectual aprendida em um patrimônio compartilhado anônimo, sem autores, linhagem nem atribuição de fonte
  Mas, se isso é verdade e continuar sendo permitido, toda propriedade intelectual que depende de copyright está igualmente ameaçada. Não é um problema exclusivo do open source. Se a ideia é que obras não open source ficam protegidas ao manter “o código-fonte”, ou seu equivalente, em segredo, não sei como seria possível ganhar dinheiro com um filme blockbuster que não se pode mostrar a ninguém ou com um romance que ninguém pode ler
  Crédito e respeito não são as únicas motivações para trabalhar em open source, e duvido que sejam as mais comuns. Essas recompensas estão mais próximas da imagem que atores que querem transformar o open source em uma rede social ou gamificá-lo gostam de pintar
  Também não está claro por que essas coisas teriam de desaparecer. A invenção da câmera não acabou com o prazer artístico dos retratistas. Motivações puramente financeiras podem ser afetadas, mas isso está longe de ser uma motivação particularmente exclusiva do open source
- Não é bem assim; isso só vai tornar o open source que já é suficientemente de nicho ainda mais de nicho
Tentar manter como um jardim murado o corpus de textos gerados por humanos que passou a ter valor para o treinamento de LLMs é uma batalha perdida. É bem provável que o cavalo já tenha saído da cocheira
Mas vejo isso como um problema temporário. LLMs são uma tecnologia de transição. Um dia, não será mais necessário treinar com o Reddit inteiro e tudo o que já foi escrito. Esses modelos estatísticos têm limitações evidentes, e humanos não aprendem assim. Ao longo da vida, uma pessoa pode ter lido centenas, talvez milhares de livros, mas não leu um milhão, nem precisa disso
O interessante é que, embora essa questão seja claramente roubo, ela é tratada como roubo dos sites ou empresas que “possuem” os dados, e não como roubo dos usuários que os criaram. Sites de conteúdo gerado por usuários estão, no fim das contas, condenados ao fracasso. Seus incentivos não se alinham com os dos usuários, e a busca incessante por lucro inevitavelmente fará os usuários irem embora
Outro problema é até que ponto é preciso consumir propriedade intelectual para que isso se torne roubo. Se um LLM assistisse a todos os filmes já feitos, provavelmente seria roubo. Mas a partir de quantos filmes isso passa a ser demais? Apocalypse Now foi livremente baseado em Heart of Darkness, ou inspirado por ele, mas não dá para dizer que um humano cometeu “roubo” por ter lido Heart of Darkness
Como se diz, toda arte é derivativa
- Concordo, mas talvez isso privilegie demais a forma como a inteligência humana funciona. LLMs são polímatas que produzem conteúdo em velocidade sobre-humana
  Eles conseguem criar poesia e literatura, e também gerar respostas de código, física e conserto de carros de maneira parecida. Hoje em dia, humanos com esse tipo de capacidade são muito raros
  Por isso, concordo que LLMs são transitórios, mas no mesmo sentido em que há uma transição, no cérebro, dos gânglios da base para o neocórtex. É bem provável que cérebros de IA geral no futuro incluam LLMs junto com outros componentes, mas não está claro que necessariamente evoluirão para funcionar como o cérebro humano
- Fóruns online às vezes são o único lugar onde é possível encontrar soluções para situações de nicho e casos de borda. São macetes que teria sido muito difícil descobrir sozinho
  LLMs podem treinar com a documentação oficial de uma ferramenta ou biblioteca, mas não conseguem experimentar diretamente aqueles problemas estranhos tão comuns no setor de tecnologia para encontrar uma solução. Se as pessoas deixarem de compartilhar essas soluções entre si, isso pode se tornar um grande problema
- Tenho pensado bastante ultimamente nessa ideia de que “humanos não aprendem assim”
  Por exemplo, fico me perguntando se seria possível treinar uma IA usando aprendizado por reforço e redes generativas adversariais para executar tarefas de TI com base em um conjunto de documentos, medindo o fitness não só pelo sucesso direto na tarefa, mas também pela capacidade de produzir uma documentação nova e mais refinada que permita até a uma cópia de si mesma, sem contexto algum, executar bem essa tarefa
- Pensando em livros como “Finite and Infinite Games”, acho que dá para “reconstruir” em certa medida o conhecimento e o argumento central daquele livro apenas a partir de leituras em outras áreas
  Ouvir diferentes gurus espirituais expressarem a mesma coisa com palavras diferentes é um pouco como ver, num caleidoscópio, os mesmos pedaços de vidro colorido serem rearranjados para formar novos padrões
- Só está meio certo. Raciocínio e compreensão real talvez não sejam os pontos fortes dos LLMs, mas é interessante que eles consigam produzir boas informações a partir de tudo o que leram. Eu li só uma fração ínfima disso. Podem ser burros, mas têm boa memória
  Então, se a IA do futuro também for usada como o ChatGPT hoje, para pessoas comuns pedirem conselhos sobre quase qualquer coisa, acho que no fim ela precisará ler tudo
As pessoas não publicam em lugares que não visitam
O motivo de não visitar o Stack Overflow para materiais bem conhecidos, especialmente em linguagens populares, é que perplexity.ai, ChatGPT, Claude etc. não só respondem melhor às perguntas do que ler uma página do Stack Overflow, como também permitem copiar e colar uma resposta mais rapidamente, esteja ela certa ou errada
Se você não está no Stack Overflow para fazer perguntas, também não vai responder lá. Não é preciso outro motivo para explicar a observação
Claro que isso significa que, se o Stack Overflow e outros fóruns de Q&A quiserem competir, precisam priorizar ao máximo a usabilidade das respostas, ou seja, a facilidade de integrar a resposta ao fluxo de trabalho
- Competir com IA é explicitamente um não objetivo da comunidade do Stack Overflow e de outro fórum de Q&A que uso, o Codidact
  A IA não “responde melhor às perguntas”. Ela apenas elimina a etapa intermediária de interpretar a pergunta e compará-la com palavras em formato de resposta. Ela alucina com frequência e praticamente não faz nenhuma verificação de sanidade sobre o que você está tentando fazer
  A principal razão de ela ter vantagem em velocidade e conveniência sobre fóruns de Q&A é que ela não se importa nem um pouco se a pergunta e a resposta poderão ajudar outras pessoas depois. Ela não leva em conta a necessidade de serem encontráveis por mecanismos de busca, compreensíveis por outra pessoa como a mesma pergunta e focadas em uma única questão
  Ela não foi projetada para isso desde o início, nem tem incentivo para tanto. Se a próxima pessoa perguntar, ela simplesmente gera de novo o mesmo conteúdo de resposta de outra forma de baixa qualidade. Ao contrário de especialistas humanos, a IA não se cansa desse trabalho

Grandes modelos de linguagem reduzem o compartilhamento de conhecimento público em plataformas online de perguntas e respostas

Resumo

Resumo do GN⁺

Leituras relacionadas

1 comentários

Opiniões no Hacker News