Grandes modelos de linguagem reduzem o compartilhamento de conhecimento público em plataformas online de perguntas e respostas
(academic.oup.com)Resumo
-
Impacto dos grandes modelos de linguagem (LLMs)
Os grandes modelos de linguagem (LLMs) têm potencial para substituir dados gerados por humanos e recursos de conhecimento. No entanto, essa substituição pode levar a uma redução dos dados de treinamento necessários para o desenvolvimento de modelos futuros. Este estudo documenta que, com o lançamento do ChatGPT, a atividade no Stack Overflow diminuiu. -
Impacto do ChatGPT
Dentro de 6 meses após o lançamento do ChatGPT, a atividade no Stack Overflow caiu 25% em comparação com plataformas semelhantes na Rússia e na China e com fóruns de matemática. Isso é interpretado como um limite inferior do verdadeiro impacto do ChatGPT sobre o Stack Overflow. A queda é maior em posts relacionados às linguagens de programação mais usadas. -
Efeito de substituição dos LLMs
Os LLMs estão substituindo não apenas conteúdo redundante ou de baixa qualidade, mas também conteúdo de alta qualidade. Usuários do ChatGPT têm menor probabilidade de postar no Stack Overflow e não visitam a plataforma regularmente. Isso sugere que a rápida adoção dos LLMs pode reduzir a produção de dados públicos necessários para o treinamento, gerando consequências importantes. -
Impacto por linguagem de programação
O impacto do ChatGPT é maior em linguagens amplamente usadas, como Python e Javascript. Em linguagens específicas, como CUDA, os posts aumentaram após o lançamento do ChatGPT. Isso mostra que o interesse por software relacionado à IA está crescendo.
Resumo do GN⁺
- Este estudo destaca os impactos negativos da rápida adoção da IA sobre a produção de dados públicos ao analisar o efeito de grandes modelos de linguagem como o ChatGPT em plataformas online de perguntas e respostas.
- À medida que o uso do ChatGPT aumenta, a atividade em plataformas como o Stack Overflow diminui, o que pode afetar a qualidade dos dados de treinamento de futuros modelos de IA.
- Essas mudanças podem ter impactos importantes na economia digital e nas formas de acesso à informação, levantando preocupações sobre a sustentabilidade do ecossistema de IA.
- Outros projetos com funções semelhantes incluem repositórios do GitHub relacionados a linguagens de programação.
1 comentários
Opiniões no Hacker News
No fim, o problema é em que os LLMs vão se basear. Eles não criam informações novas; funcionam regurgitando e combinando informações existentes, então seu desempenho cai bastante em código para o qual amostras públicas ou respostas no Stack Overflow/Reddit não são suficientes
Foram necessárias algumas idas e vindas para chegar a uma solução que funcionasse, mas no fim deu certo, e fiquei curioso se a IA encontrou e digeriu bem materiais obscuros da internet, ou se entendeu uma documentação difícil melhor do que eu. Se for o segundo caso, a necessidade de amostras públicas pode até diminuir
Já estamos nos inclinando para tecnologias que os LLMs dominam bem, porque a vantagem de fazer um LLM resolver 90% do problema é maior do que o benefício de uma linguagem ou framework apenas um pouco melhor. Eu detesto Python como linguagem, mas é difícil negar que LLMs se saem muito melhor em Python do que em muitas outras linguagens
Vou inventar um número, mas dá para defendê-lo: 90% das informações do Stack Overflow são repetições de algum manual em algum lugar. O problema é que muitas vezes é difícil encontrar a informação desejada dentro da documentação relevante e, mesmo quando se encontra, ela é difícil de ler; LLMs são muito bons em ler e entender documentação
As demonstrações técnicas que criam um app inteiro instantaneamente com um ou dois prompts são frágeis. Se você não souber o que está fazendo, enquanto continua adicionando recursos, ele vai ficar mudando a forma de chamar APIs, a forma de gerenciar estado e a biblioteca de CSS. Por exemplo, em um arquivo que já tem 3 funções nativas
fetch, de repente ele sugere instalar e usaraxiossem motivoTambém pode apagar trechos como
{/* rest of your functions here*}Depois de um tempo, só dá para usar com segurança em tarefas tediosas como loops ou
switch, então os empregos de desenvolvedores parecem seguros por enquantoO artigo diz que os LLMs estão reduzindo o compartilhamento público de conhecimento, e que o efeito não se limita a substituir conteúdo duplicado, de baixa qualidade ou de nível iniciante, mas a argumentação é fraca e o efeito não é tão sensacional quanto o título sugere
Primeiro, para o teste proposto de que LLMs substituem posts de baixa qualidade, eles mostram apenas a Figure 3 e não apresentam resultados de regressão. Por outro lado, relatam testes para uma classificação arbitrária de experiência do usuário, como considerar alguém experiente se postou 10 vezes. Fica a dúvida de por que omitiram o teste por qualidade do post e mostraram os resultados de “experiência” em buckets arbitrários
Segundo, a própria Figure 3 mostra mudanças de tendência para perguntas boas e neutras. As perguntas boas estavam em queda e depois ficaram estáveis; as neutras estavam em alta e depois ficaram estáveis. As perguntas ruins continuam caindo, sem uma mudança de tendência perceptível. Isso sugere até a conclusão oposta: que os LLMs estão substituindo conteúdo de baixa qualidade
A conclusão precisava de uma formulação mais forte, e a pesquisa não recompensa bem resultados cuidadosos, mas nada surpreendentes. Por isso, dá a impressão de que saiu um título sensacionalista e alguns resultados aparentemente omitidos
As pessoas já não compartilham informações livremente em fóruns públicos como antes; elas recuam para serviços como Discord, cavam fossos e levantam pontes levadiças. É difícil culpá-las. Muitos fóruns e redes sociais vêm adotando designs e modelos de monetização cada vez mais hostis, enquanto IA/LLMs rastreiam tudo em todos os lugares, sugam tudo e depois colocam atrás de paywalls, prejudicando a chance de a fonte original ser encontrada em buscas. Algoritmos que incentivam engajamento ampliam ataques e brigas. Hoje em dia, o HN é uma exceção rara
No fim, pessoas com interesses ou conhecimentos específicos se reúnem em comunidades privadas e conversam apenas entre si, tornando o ambiente mais difícil para quem tenta entrar
É natural que as pessoas reduzam suas contribuições gratuitas ao Stack Overflow. O Stack Overflow está vendendo seus contribuidores por meio de um contrato com a API da OpenAI e de inúmeros posts de blog com exageros sobre “IA”
Pessoalmente, muitas perguntas sobre projetos open source migraram para GitHub e Discord, então há uma mudança de plataforma além dos LLMs
Para problemas de programação mais gerais, costumo começar pelo Gemini. Muitas vezes ele responde diretamente nos termos do meu problema, sem que eu precise visitar várias páginas e montar tudo, ou, mesmo quando erra, dá pistas melhores para começar uma busca. Isso economiza o tempo de clicar em vários posts do Stack Overflow com títulos parecidos, mas diferenças importantes no conteúdo
2024: Discord é bom porque não é indexado por geradores de lixo de IA
Assino vários subreddits de tecnologia e, nos últimos dois anos, vi muitas vezes a mesma pergunta sendo espalhada por vários subreddits. A conta tinha acabado de ser criada, ou todas as respostas eram respostas genéricas de uma linha que pareciam geradas automaticamente
Considero que são contas de bots para treinamento de IA e, antes de escrever uma explicação técnica longa, só respondo depois de confirmar primeiro se é uma pessoa de verdade perguntando
No fim, o sucesso da “cultura da dádiva” via WWW, de “o conhecimento deve ser livre”, do F/OSS etc. provavelmente vai fazer toda a ética hacker à la Stallman parecer ruim
Todos trabalhamos para a IBM^H^H^HOpenAI, mas agora não temos nada como a GPL para nos respaldar
Se isso soa como déjà vu, é porque esse conteúdo já tinha sido destacado pelos críticos em julho de 2023 com “Are Large Language Models a Threat to Digital Public Goods? Evidence from Activity on Stack Overflow”: https://arxiv.org/abs/2307.07367
Também foi discutido no HN: https://news.ycombinator.com/item?id=36763718
Relacionados a isso, há também https://meta.stackoverflow.com/questions/425635 e https://meta.stackoverflow.com/questions/422392
No fim, os modelos de linguagem de grande escala serão o fim do open source. Basta aceitar
Modelos de linguagem de grande escala são usados para agregar e interpolar propriedade intelectual. Nesse processo, não há reconhecimento dos autores nem da linhagem, nem atribuição de fonte ou citação. Na prática, a propriedade intelectual usada para treinar o modelo se torna um patrimônio compartilhado anônimo
As recompensas sociais que muitas vezes motivam o trabalho open source, como crédito e respeito, são enfraquecidas. É assim que vai acabar
O custo de contribuição cai drasticamente. Por exemplo, US$ 100 compram 200 milhões de tokens do GPT-3.5, o que equivale a usar 10 mil tokens para desenvolver cada linha de um projeto de 20 mil linhas
É um projeto de porte médio viável com uma única doação e uma tarde gerenciando um framework de workflow
Se os LLMs são o fim do open source, o motivo seria exatamente o que você disse: eles agregam e interpolam propriedade intelectual e transformam a propriedade intelectual aprendida em um patrimônio compartilhado anônimo, sem autores, linhagem nem atribuição de fonte
Mas, se isso é verdade e continuar sendo permitido, toda propriedade intelectual que depende de copyright está igualmente ameaçada. Não é um problema exclusivo do open source. Se a ideia é que obras não open source ficam protegidas ao manter “o código-fonte”, ou seu equivalente, em segredo, não sei como seria possível ganhar dinheiro com um filme blockbuster que não se pode mostrar a ninguém ou com um romance que ninguém pode ler
Crédito e respeito não são as únicas motivações para trabalhar em open source, e duvido que sejam as mais comuns. Essas recompensas estão mais próximas da imagem que atores que querem transformar o open source em uma rede social ou gamificá-lo gostam de pintar
Também não está claro por que essas coisas teriam de desaparecer. A invenção da câmera não acabou com o prazer artístico dos retratistas. Motivações puramente financeiras podem ser afetadas, mas isso está longe de ser uma motivação particularmente exclusiva do open source
Tentar manter como um jardim murado o corpus de textos gerados por humanos que passou a ter valor para o treinamento de LLMs é uma batalha perdida. É bem provável que o cavalo já tenha saído da cocheira
Mas vejo isso como um problema temporário. LLMs são uma tecnologia de transição. Um dia, não será mais necessário treinar com o Reddit inteiro e tudo o que já foi escrito. Esses modelos estatísticos têm limitações evidentes, e humanos não aprendem assim. Ao longo da vida, uma pessoa pode ter lido centenas, talvez milhares de livros, mas não leu um milhão, nem precisa disso
O interessante é que, embora essa questão seja claramente roubo, ela é tratada como roubo dos sites ou empresas que “possuem” os dados, e não como roubo dos usuários que os criaram. Sites de conteúdo gerado por usuários estão, no fim das contas, condenados ao fracasso. Seus incentivos não se alinham com os dos usuários, e a busca incessante por lucro inevitavelmente fará os usuários irem embora
Outro problema é até que ponto é preciso consumir propriedade intelectual para que isso se torne roubo. Se um LLM assistisse a todos os filmes já feitos, provavelmente seria roubo. Mas a partir de quantos filmes isso passa a ser demais? Apocalypse Now foi livremente baseado em Heart of Darkness, ou inspirado por ele, mas não dá para dizer que um humano cometeu “roubo” por ter lido Heart of Darkness
Como se diz, toda arte é derivativa
Eles conseguem criar poesia e literatura, e também gerar respostas de código, física e conserto de carros de maneira parecida. Hoje em dia, humanos com esse tipo de capacidade são muito raros
Por isso, concordo que LLMs são transitórios, mas no mesmo sentido em que há uma transição, no cérebro, dos gânglios da base para o neocórtex. É bem provável que cérebros de IA geral no futuro incluam LLMs junto com outros componentes, mas não está claro que necessariamente evoluirão para funcionar como o cérebro humano
LLMs podem treinar com a documentação oficial de uma ferramenta ou biblioteca, mas não conseguem experimentar diretamente aqueles problemas estranhos tão comuns no setor de tecnologia para encontrar uma solução. Se as pessoas deixarem de compartilhar essas soluções entre si, isso pode se tornar um grande problema
Por exemplo, fico me perguntando se seria possível treinar uma IA usando aprendizado por reforço e redes generativas adversariais para executar tarefas de TI com base em um conjunto de documentos, medindo o fitness não só pelo sucesso direto na tarefa, mas também pela capacidade de produzir uma documentação nova e mais refinada que permita até a uma cópia de si mesma, sem contexto algum, executar bem essa tarefa
Ouvir diferentes gurus espirituais expressarem a mesma coisa com palavras diferentes é um pouco como ver, num caleidoscópio, os mesmos pedaços de vidro colorido serem rearranjados para formar novos padrões
Então, se a IA do futuro também for usada como o ChatGPT hoje, para pessoas comuns pedirem conselhos sobre quase qualquer coisa, acho que no fim ela precisará ler tudo
As pessoas não publicam em lugares que não visitam
O motivo de não visitar o Stack Overflow para materiais bem conhecidos, especialmente em linguagens populares, é que perplexity.ai, ChatGPT, Claude etc. não só respondem melhor às perguntas do que ler uma página do Stack Overflow, como também permitem copiar e colar uma resposta mais rapidamente, esteja ela certa ou errada
Se você não está no Stack Overflow para fazer perguntas, também não vai responder lá. Não é preciso outro motivo para explicar a observação
Claro que isso significa que, se o Stack Overflow e outros fóruns de Q&A quiserem competir, precisam priorizar ao máximo a usabilidade das respostas, ou seja, a facilidade de integrar a resposta ao fluxo de trabalho
A IA não “responde melhor às perguntas”. Ela apenas elimina a etapa intermediária de interpretar a pergunta e compará-la com palavras em formato de resposta. Ela alucina com frequência e praticamente não faz nenhuma verificação de sanidade sobre o que você está tentando fazer
A principal razão de ela ter vantagem em velocidade e conveniência sobre fóruns de Q&A é que ela não se importa nem um pouco se a pergunta e a resposta poderão ajudar outras pessoas depois. Ela não leva em conta a necessidade de serem encontráveis por mecanismos de busca, compreensíveis por outra pessoa como a mesma pergunta e focadas em uma única questão
Ela não foi projetada para isso desde o início, nem tem incentivo para tanto. Se a próxima pessoa perguntar, ela simplesmente gera de novo o mesmo conteúdo de resposta de outra forma de baixa qualidade. Ao contrário de especialistas humanos, a IA não se cansa desse trabalho