Não há direito de relicenciar este projeto
(github.com/chardet)- Mark Pilgrim, autor original do
chardet, apontou uma violação da licença LGPL no projeto e exigiu a reversão da recente mudança para a licença MIT na versão 7.0.0 - Ele afirmou que, mesmo que os mantenedores aleguem uma “reescrita completa”, trata-se de um derivado escrito com exposição direta ao código original, portanto deve continuar sob LGPL
- Vários desenvolvedores discutiram se uma reescrita assistida por IA realmente constitui uma “implementação clean room” e se o LLM foi treinado com o código original
- Alguns mencionaram a compatibilidade de API e a possibilidade de fair use, mas a maioria demonstrou preocupação com a possibilidade de violação de direitos autorais e a incerteza jurídica do código gerado por IA
- A discussão vem sendo vista como um precedente importante em torno da responsabilidade autoral do código gerado por IA, dos procedimentos para mudança de licença em projetos open source e dos limites da autoridade de mantenedores
O questionamento de Mark Pilgrim
- Mark Pilgrim declarou ser o autor original do
chardete afirmou que o projeto vinha sendo distribuído sob a licença LGPL- Ele apontou que a alegação do mantenedor de que teria o “direito de relicenciar” na versão 7.0.0 está errada
- Enfatizou que código sob LGPL, mesmo quando modificado, deve ser publicado sob a mesma licença, e que a alegação de “reescrita completa” não tem base legal
- Também afirmou que a “adição de um gerador de código” não concede novos direitos
- Pilgrim exigiu que o projeto fosse restaurado à licença LGPL original
Reação inicial da comunidade
- Um usuário perguntou se existia um fork de uma versão anterior à reescrita assistida por IA, e outro forneceu um link para a versão 6.0.0
- Alguns concordaram que “legalmente Mark está certo”, reconhecendo a possível violação da LGPL
- Outros comentaram, de forma mais prática, que uma “reescrita via IA é um trade-off inevitável”
Debate jurídico: API, direitos autorais e fair use
- Um usuário citou o caso Google LLC v. Oracle America, Inc. para afirmar que APIs também estão sujeitas à proteção autoral
- Explicou que uma reescrita motivada por compatibilidade de API pode ser ilegal se não atender aos requisitos de fair use
- Em resposta, outro usuário rebateu dizendo que, no caso do Google, o uso foi considerado fair use
- A discussão então se expandiu para a legalidade de reescritas compatíveis com API e o status autoral de código gerado por IA
Geração de código por IA e a controvérsia sobre implementação clean room
- Alguns apontaram que, se houver a possibilidade de a IA ter sido treinada com o código original, então uma implementação clean room não se sustenta
- A questão de saber se o LLM aprendeu com o código do
chardetpode se tornar o ponto central da análise jurídica
- A questão de saber se o LLM aprendeu com o código do
- Outros argumentaram que “talvez fosse possível” se a IA tivesse gerado o código com base apenas em entradas e saídas
- Em resposta, surgiu a objeção de que, nesse caso, “a própria licença perderia o sentido”
- A falta de clareza sobre a responsabilidade autoral do código de IA e a dificuldade de verificar conformidade com licenças emergiram como temas centrais
Compatibilidade de licenças e debate sobre GPL
- Alguns afirmaram que a licença MIT não é compatível com a GPL, mas outro usuário citou a documentação oficial da FSF para explicar que a MIT (Expat) é compatível com a GPL
- Ainda assim, houve amplo consenso de que relicenciar código LGPL como MIT continua sendo uma violação
- Outro usuário observou que “não dá para abandonar o acordo e, ao mesmo tempo, manter a reputação e o repositório construídos sobre código LGPL”
Dados de treinamento de IA e questão de confiança
- Vários usuários levantaram a dúvida: “é possível acreditar que o Claude não foi treinado com código LGPL?”
- A falta de rastreabilidade dos dados de treinamento dos modelos de IA foi citada como risco jurídico
- Alguns defenderam que, se código de IA embute risco de plágio, o melhor seria evitar seu uso por completo
- Com citação de pesquisa, foi mencionada uma estatística segundo a qual 2% a 5% do código de IA pode ser cópia de código existente
Identidade do projeto e limites da autoridade do mantenedor
- Alguns argumentaram que, “se todo o código de contribuidores anteriores foi removido”, então a nova versão poderia ser independente
- Porém, houve a contestação de que continuar usando o mesmo nome e a mesma reputação seria inadequado
- Também apareceu a opinião de que “direitos autorais protegem a expressão, não o nome”
- Houve ainda quem dissesse que, se o mantenedor realmente removeu todo o código anterior, talvez não houvesse violação legal — mas nenhuma prova clara foi apresentada
Visão geral da comunidade
- Vários usuários afirmaram respeitar as contribuições tanto de Mark Pilgrim quanto de Dan Blanchard, e destacaram a necessidade de reconhecer a complexidade dos temas IA, direitos autorais e governança open source
- A discussão se ampliou para tópicos como a responsabilidade jurídica pelo código gerado por IA, a legitimidade de mudanças de licença em projetos e os limites da autoridade de mantenedores de open source
- Alguns chegaram a propor: “vamos fazer um fork da v7.0.0 e restaurá-la para LGPL”
Resumo dos pontos centrais
- Legalidade da mudança de LGPL → MIT: opinião majoritária de que isso não é possível sem o consentimento do autor original
- Status autoral da reescrita por IA: pode ser considerada derivada dependendo da exposição aos dados de treinamento
- Se houve implementação clean room: seria necessário provar que a IA não consultou o código original
- Uso do nome e da reputação do projeto: redistribuir com o mesmo nome gera controvérsia jurídica e ética
- Confiabilidade do código de IA: preocupações com risco de plágio e estabilidade da cadeia de suprimentos
Este caso vem sendo tratado como um exemplo representativo do debate sobre direitos autorais de código gerado por IA e conformidade com licenças open source, podendo influenciar no futuro a estrutura de responsabilidade jurídica de ferramentas de desenvolvimento com IA.
1 comentários
Comentários no Hacker News
Acho que Pilgrim está entendendo errado o conceito de copyright (clean room)
A alegação de “reescrita completa” não é o ponto importante. Legalmente, uma implementação independente é possível.
Clean room é apenas um mecanismo processual para simplificar litígios; não é uma exigência legal que a pessoa nunca tenha sido exposta ao código original.
Na prática, o Linux também conhecia a estrutura interna do Unix, mas foi implementado de forma independente
A baixa similaridade no JPlag parece ser uma evidência convincente de que não houve plágio
A afirmação de que “se você conhece a base de código, qualquer reescrita também viola copyright” não é totalmente válida
Conhecimento interno é questão de patente, não de copyright.
Porém, se alguém deixa o código original ao lado e só troca as frases, isso é infração.
Se a IA olhar o código original e gerar algo parecido, isso provavelmente será tratado na prática como cópia paralela.
Mas, se for escrito totalmente do zero sem ver o original, isso é possível. Ainda assim, como é difícil se defender juridicamente, do ponto de vista empresarial isso deve ser tratado como um risco
Patente pode ser infringida independentemente de invenção independente, mas em copyright o essencial é a independência criativa.
Ainda assim, se você produzir o mesmo resultado de uma obra que já viu antes, será difícil convencer um júri
No fim, se houver similaridade, é bem provável que se conclua pela infração com base no critério de preponderância das evidências
Por outro lado, se você nunca conheceu a obra original, será reconhecido como criação independente
A ideia em si não é protegida, mas a expressão é.
Se o LLM viu o código original durante o treinamento, isso cai numa zona cinzenta jurídica
O ponto central é se houve violação da LGPL.
Se o novo código foi baseado no original, ele é considerado obra derivada e deve manter a LGPL.
Mesmo alegando “reescrita completa”, se houve exposição ao código original, isso pode configurar violação de licença
Clean room é apenas um procedimento de defesa em litígio, e o ônus da prova é do autor da ação.
Linux e ferramentas GNU também conheciam o Unix, mas eram legais
Vi um caso interessante durante consultoria.
Um engenheiro de uma empresa SaaS usou Claude Code para fazer engenharia reversa do próprio app e criar, em uma semana, um backend compatível com a API.
Perguntaram: “como nos protegemos se um concorrente fizer isso?”
Se o código em si é o centro do negócio, ele já está em risco.
Em vez de se preocupar com concorrência, o importante é fazer um produto melhor
Já vivemos numa era em que dizer “vamos reimplementar Slack ou Drive” não soa irrealista
A API é uma interface pública, então não é protegida
Como nos casos de engenharia reversa do BIOS da IBM e do DOS, implementação independente é legal
O mantenedor é um trustee, não o proprietário.
Ele não deve mudar arbitrariamente a licença definida pelo autor original.
Se o código foi feito inteiramente do zero, então deveria iniciar um projeto com outro nome.
Dizer algo como “congelem a versão existente” vai contra o espírito da comunidade
Já em um comentário de 2021 foi mencionado que “chardet é baseado em LGPL, então não pode ser relicenciado”.
Se reescreveram mesmo sabendo disso, foi uma decisão imprudente e uma falta de respeito com o autor original
Se a IA escreveu o código depois de ver o original, isso não é uma implementação clean room.
E se houvesse duas equipes de IA, uma criando a especificação e a outra implementando? Isso seria aceitável?
Segue o precedente da era IBM, mas, se o modelo já foi treinado no original, ainda há problema
Mas seria preciso verificar se a especificação não contém elementos expressivos
Quando o original está incluído nos dados de treinamento, a comparação em si perde o sentido
Como na piada “se eu copiar e colar da Wikipédia e trocar só algumas palavras, tudo bem?”,
no fim das contas não dá para evitar de propósito.
Vivemos uma época em que é difícil confiar, a ponto de ser preciso fixar versões de dependências
Mas o direito valoriza uma avaliação do conjunto.
Os tribunais julgam com base na “preponderância das evidências”, e simplesmente trocar palavras não transforma uma obra em outra.
Se o original foi essencial, é bem provável que se conclua que se trata de obra derivada.
Se o original estiver nos dados de treinamento, prevê-se que um processo por violação de copyright será inevitável
Por outro lado, é curioso ver Mark Pilgrim aparecer de novo
A página dele na Wikipédia menciona o episódio em que ele “desapareceu” da internet.
Os livros dele sobre Python ainda valem a recomendação
Há também surpresa com a ideia de que “se a IA foi treinada com código GPL, então todo código de IA não estaria contaminado por GPL (taint)?”
O procedimento de clean room nos EUA é apenas uma estratégia para encurtar litígios