- De acordo com o acordo entre o Stack Overflow e a OpenAI, todas as perguntas e respostas do Stack Overflow passarão a ser usadas no treinamento de modelos de IA generativa
- Isso será feito sem a atribuição de autoria exigida pela licença CC-BY-SA
- A licença CC-BY-SA exige que obras derivadas também sejam compartilhadas sob a mesma licença
- Diante disso, solicitei a exclusão dos meus dados do Stack Overflow e encerrei minha conta
- Tomei a mesma medida no Reddit
- Porque os dados para cuja criação contribuí serão incorporados a LLMs e revendidos para mim
- O Stack Overflow, de uma só vez, alienou a comunidade, que era sua principal fonte de vantagem competitiva
- Antes, cumpria-se um contrato psicológico: ajudávamos uns aos outros quando possível, na expectativa de que outras pessoas ajudariam no futuro
- Agora isso deixou de ser troca e virou
#enshittification
- Os programadores agora, assim como artistas e redatores publicitários, viram seu trabalho ser arrastado para a criação de soluções de IA generativa
- Se a OpenAI criar um LLM que gere código, como o Copilot do GitHub, fica a dúvida de onde será possível obter ajuda para bugs introduzidos pelo modelo de IA gerado
- Segundo um relatório recente da GitClear, essas ferramentas causam uma "pressão descendente sobre a qualidade do código"
- Este é mais um caso de
#enshittification e uma lição importante para profissionais de DevRel
- Se a comunidade é a fonte da vantagem competitiva, você não deve deixá-la irritada
14 comentários
Parece que
enshittificationé um neologismo.<Devemos tratar humanos e IA de forma diferente?>
Vamos supor que um humano, Hong Gil-dong, navegue pela internet, incluindo o Stack Overflow. Ele lê vários textos e, assim, adquire diversos conhecimentos sobre um determinado tema. Gil-dong tem o hábito de pegar o que aprendeu, generalizar e organizar de forma fácil de entender, e publicar em um blog externo. Nesse caso, isso não tem relação com a licença CC. Também não há obrigação de atribuição. Porque não é citação, e sim aprendizado.
A IA aprende com redes neurais, assim como os humanos. Ela não sai copiando e repetindo várias fontes literalmente. Como um humano, ela analisa o conhecimento à sua maneira, forma seu próprio entendimento, reorganiza e então responde.
Na verdade, é até mais difícil restringir a liberdade da IA e fazê-la "citar" exatamente as palavras de outra pessoa. Usar RAG para isso é fácil, mas treiná-la para citar é mais difícil.
No entanto, há casos em que, mesmo sem dizer à IA separadamente "não diga o que você pensa, cite literalmente o texto (código) de outra pessoa", ela acaba reproduzindo como se estivesse copiando a fala alheia. Isso acontece quando a fonte em questão é extremamente famosa. Por exemplo, Shakespeare ou falas marcantes de filmes são tão conhecidos que acabam sendo reproduzidos literalmente. Humanos também memorizam exatamente esse tipo de conteúdo muito famoso e repetidamente exposto, e com a IA acontece a mesma coisa. Nesses casos, assim como os humanos, a IA em geral também informa a fonte por conta própria.
Em conclusão, é questionável se de fato se pode exigir licença CC e direitos autorais sobre conteúdos produzidos a partir de aprendizado. Já no campo da "inferência" (usar uma IA cujo treinamento já terminou), por razões como as acima, está se tornando uma tendência global quase não reconhecer os direitos autorais da fonte original.
Obrigado pelo bom comentário.
O desenvolvedor Fulano pode "aprender" com uma resposta vista no SO e depois escrever um post no blog, mas o pós-graduando Fulano, se tiver "citado" nem que seja um pouco do artigo de outra pessoa, deixará registrada a fonte. Se o contexto da conversa que estamos tendo não é filosofia nem invenção, mas sim o mundo da programação, então o que é aprendizado e o que é citação?
Em geral, há exceções ao fato de se manter a atribuição de autoria.
Esse é um ponto que talvez venha a ser resolvido com o tempo, mas a polêmica começou quando o Copilot trouxe literalmente o código de fast inverse sqrt do Quake (https://news.ycombinator.com/item?id=27710287); perceberam isso porque aquele código é muito conhecido, mas ninguém sabe quanto código desse tipo, por assim dizer, foi "gerado" na base do copia e cola.
Que perspectiva realmente interessante. Foi muito útil como referência para mim.
Que ponto de vista interessante.
Vendo do jeito coreano, parece uma mistura entre encarar isso como um "café/comunidade entregue para comerciantes" e pensar "de qualquer forma, é uma obra derivada, então qual é o problema?"
Mas, pessoalmente, não acho nada agradável a sensação de ver minhas fotos postadas em SNS sendo usadas comercialmente.
> Ele analisa o conhecimento à sua maneira como um humano, estabelece seus próprios pensamentos e os reorganiza para se expressar.
Parece que você está afirmando que os LLMs têm valores e pensamentos; essa é realmente a sua intenção? Isso não afeta a conclusão, mas como fundamento para defender que não se deve aplicar direitos autorais à inferência, não me parece muito apropriado.
O processo de tokenizar cada palavra e inserir e organizar adequadamente essas informações de embedding no espaço latente, em um sentido abstrato, pode ser comparado a valores e pensamentos.
Sobre a ciberização.
Isso me faz lembrar da frase de alguém: "Só cérebros valiosos serão preservados."
Será que o pessoal do SO vai realmente apagar de forma honesta? Ou só vão marcar como Deleted e depois anunciar que "foi usado no treinamento por causa de um erro técnico"?
> Além disso, desde o início, como nos EUA — diferentemente da Coreia ou da Europa — a controvérsia sobre o "direito ao esquecimento" nunca pode chegar ao fim...
Não tenho conhecimento de base sobre esse assunto, então dei uma pesquisada rápida. Será que é porque a liberdade de expressão e o direito ao esquecimento entram em conflito? E, como ainda não há consenso, a legislação também não foi aprovada?
Uau, isso realmente pode acontecer.
Stack Overflow e OpenAI fecham parceria
Usuários do Stack Overflow passam a apagar respostas após parceria com a OpenAI