Grandes modelos de linguagem reduzem o compartilhamento de conhecimento público em plataformas online de perguntas e respostas
(academic.oup.com)Resumo
-
Impacto dos grandes modelos de linguagem (LLMs)
Os grandes modelos de linguagem (LLMs) têm potencial para substituir dados gerados por humanos e recursos de conhecimento. No entanto, essa substituição pode levar a uma redução dos dados de treinamento necessários para o desenvolvimento de modelos futuros. Este estudo documenta que, com o lançamento do ChatGPT, a atividade no Stack Overflow diminuiu. -
Impacto do ChatGPT
Dentro de 6 meses após o lançamento do ChatGPT, a atividade no Stack Overflow caiu 25% em comparação com plataformas semelhantes na Rússia e na China e com fóruns de matemática. Isso é interpretado como um limite inferior do verdadeiro impacto do ChatGPT sobre o Stack Overflow. A queda é maior em posts relacionados às linguagens de programação mais usadas. -
Efeito de substituição dos LLMs
Os LLMs estão substituindo não apenas conteúdo redundante ou de baixa qualidade, mas também conteúdo de alta qualidade. Usuários do ChatGPT têm menor probabilidade de postar no Stack Overflow e não visitam a plataforma regularmente. Isso sugere que a rápida adoção dos LLMs pode reduzir a produção de dados públicos necessários para o treinamento, gerando consequências importantes. -
Impacto por linguagem de programação
O impacto do ChatGPT é maior em linguagens amplamente usadas, como Python e Javascript. Em linguagens específicas, como CUDA, os posts aumentaram após o lançamento do ChatGPT. Isso mostra que o interesse por software relacionado à IA está crescendo.
Resumo do GN⁺
- Este estudo destaca os impactos negativos da rápida adoção da IA sobre a produção de dados públicos ao analisar o efeito de grandes modelos de linguagem como o ChatGPT em plataformas online de perguntas e respostas.
- À medida que o uso do ChatGPT aumenta, a atividade em plataformas como o Stack Overflow diminui, o que pode afetar a qualidade dos dados de treinamento de futuros modelos de IA.
- Essas mudanças podem ter impactos importantes na economia digital e nas formas de acesso à informação, levantando preocupações sobre a sustentabilidade do ecossistema de IA.
- Outros projetos com funções semelhantes incluem repositórios do GitHub relacionados a linguagens de programação.
1 comentários
Opiniões no Hacker News
Há um problema com LLMs: eles não geram informações novas, apenas recombinam o que já existe. Quando faltam exemplos de código, o desempenho é fraco
Levanta-se dúvida sobre a afirmação de que os LLMs estão reduzindo o compartilhamento público de conhecimento
Perguntas sobre projetos open source estão migrando para o GitHub e o Discord
A redução das contribuições gratuitas no Stack Overflow se deve ao contrato com a API da OpenAI e a posts de blog relacionados a IA
Quando chegarmos à AGI, os LLMs vão dizer: "este chat foi marcado como duplicado"
Os LLMs podem estreitar o escopo do conhecimento e do discurso
Se as interações técnicas diminuírem, isso também pode afetar as interações no mundo real
Os LLMs aprendem em plataformas online de perguntas e respostas, mas se as pessoas pararem de perguntar e responder, a fonte de conhecimento pode ser contaminada por dados imprecisos gerados por LLMs
Pode ser necessário haver agentes que contribuam automaticamente no Stack Overflow e deem upvote automaticamente nas soluções