- A biblioteca de detecção de codificação de caracteres do Python, chardet, foi reimplementada com IA, e o caso de mudança de LGPL para MIT desencadeou um debate ético no open source
- Surgiram opiniões reconhecendo a legalidade da reimplementação por IA, mas o texto enfatiza que permissão legal e legitimidade social são coisas diferentes
- As reimplementações históricas do GNU e do Linux foram uma expansão do privado para o livre, enquanto este caso atua na direção de enfraquecer a proteção dos bens comuns
- As condições de compartilhamento da GPL não são uma restrição, mas um mecanismo para garantir o compartilhamento recíproco, e a liberdade ao estilo MIT leva a uma estrutura assimétrica em que os benefícios fluem apenas para quem tem mais capital
- Quanto mais fácil a IA torna contornar o copyleft, mais importante se torna o princípio de que quem obteve dos bens comuns deve devolver aos bens comuns
Reimplementação por IA do chardet 7.0 e mudança de licença
- A biblioteca chardet do Python foi completamente reescrita usando o Claude, da Anthropic
- A nova versão é 48 vezes mais rápida que a anterior e adicionou suporte a múltiplos núcleos
- A similaridade de código foi medida em menos de 1,3%, sendo considerada uma obra independente
- A licença mudou da LGPL para a MIT, eliminando a obrigação de divulgar o código-fonte
- O autor original, Mark Pilgrim, levantou via issue no GitHub a possibilidade de violação da LGPL
- O argumento é que uma reimplementação feita enquanto a IA estava exposta à base de código existente é difícil de considerar um processo de “clean room”
Reações opostas de figuras do open source
- Armin Ronacher (criador do Flask) celebrou o relicenciamento e afirmou que a GPL vai contra o espírito de compartilhamento
- Salvatore Sanfilippo (antirez, criador do Redis) defendeu a legalidade da reimplementação por IA, citando a história do GNU e a lei de direitos autorais como base
- Embora ambos equiparem permissão legal à legitimidade, o texto aponta como problema a lacuna entre direito e ética
A história do GNU e a diferença de direção
- A reimplementação no GNU foi um processo de converter software proprietário em software livre
- O ponto central não era a permissão legal, mas a direção ética de expandir os bens comuns
- Já no caso do chardet, o movimento atua na direção de remover a proteção do copyleft e desmontar a cerca dos bens comuns
- Derivados baseados no chardet 7.0 não terão mais obrigação de divulgar o código-fonte
- O texto argumenta que antirez ignora essa oposição de direção e usa o precedente do GNU como justificativa incorreta
GPL e o significado de compartilhar
- Ronacher afirma que a GPL restringe o compartilhamento, mas o texto aponta isso como um mal-entendido fundamental
- A GPL exige a divulgação do código-fonte apenas na distribuição, sem restringir o uso privado
- Isso é um mecanismo para garantir a reciprocidade do compartilhamento, não para reprimi-lo
- A licença MIT deixa quem recebe o código livre, mas não exige devolver contribuições
- Na prática, isso cria uma estrutura em que os benefícios se concentram apenas em quem tem mais capital e mão de obra
- Casos dos anos 1990 em que código GPL foi absorvido por empresas mostrariam a necessidade de fortalecer o copyleft
Caso autocontraditório: Vercel e Cloudflare
- A Vercel reimplementou o GNU Bash com IA e depois demonstrou incômodo quando a Cloudflare reimplementou o Next.js
- Como o Next.js usa licença MIT, não havia problema legal
- Isso expõe a contradição de dizer que “mudar a GPL para MIT é uma vitória do compartilhamento” e, ao mesmo tempo, reagir quando o próprio código é reimplementado
- O texto avalia que Ronacher reconhece isso, mas não muda sua conclusão, chegando a uma conclusão moldada pela posição, e não pela lógica
A distinção entre legalidade e legitimidade
- A lei apenas define atos que não são proibidos, mas não garante que sejam corretos
- Existem atos legais, porém antissociais, como evasão fiscal ou aumento abusivo no preço de medicamentos
- A LGPL do chardet não era apenas um dispositivo legal, mas uma promessa social de 12 anos
- Um acordo baseado em confiança: “se você usar este código, compartilhará sob as mesmas condições”
- Mesmo que a reimplementação por IA seja legalmente uma nova obra, ela quebra a confiança com os contribuidores
- Zoë Kooyman, da FSF, afirma explicitamente que “não conceder aos outros os direitos que você recebeu é um ato antissocial”
A assimetria de perspectiva
- antirez e Ronacher são figuras centrais do open source, e a reimplementação por IA significa um ambiente favorável a eles
- Já para os contribuidores do chardet, isso representa a perda da proteção de suas contribuições
- O texto avalia que ignorar essa assimetria e dizer apenas “não há problema legal” é racionalização, não análise
O futuro do copyleft e o julgamento social
- Bruce Perens alertou que “a economia do desenvolvimento de software acabou”
- antirez reagiu com “é preciso se adaptar”, e Ronacher com “é interessante”
- Mas a questão central é: “quanto mais fácil for contornar o copyleft, mais necessário ele se torna?”
- O texto responde categoricamente: “sim”
- A GPL protege não a escassez do código, mas a liberdade do usuário
- Quanto mais fácil for reimplementar com IA, menor também será o atrito para remover o copyleft
- O princípio de que “quem obteve dos bens comuns deve devolver aos bens comuns” é uma norma social independente do tempo ou da mudança tecnológica
- A lei muda lentamente, mas os julgamentos de valor da comunidade sempre se moveram primeiro
- A evolução de GPLv2→v3→AGPL também foi precedida pelo julgamento da comunidade, antes da lei
- Na era da IA, essa proteção deve ser expandida para incluir test suites e especificações de API como objetos de copyleft
- Em conclusão, o texto enfatiza que deve vir primeiro um julgamento social, não uma decisão legal, e que
legalidade não pode substituir legitimidade
1 comentários
Opiniões no Hacker News
Se agora é possível gerar código-fonte apenas a partir de uma especificação (specification), então o principal ativo intelectual de projetos GPL passa a estar na especificação
No passado, lutou-se para que imitar software corporativo fosse legalmente permitido, mas agora estamos numa situação em que se abre mão desse direito e se dá mais controle aos detentores de propriedade intelectual
Essa tendência não vai resultar em algo anti-big tech nem favorável ao compartilhamento. No fim, quem exercerá esse poder serão as grandes empresas
Agora os tempos mudaram completamente. A alegação citada apenas repete pontos que já foram criticados.
Se você concorda com essa discussão, recomendo muito ler o artigo original
O ponto que acho interessante é se isso pode acabar não só com o copyright, mas com o próprio conceito de propriedade intelectual (IP)
A IP foi construída sobre a premissa de que ‘criar é difícil’, mas os LLMs agora automatizam quase toda produção de conhecimento, como provas matemáticas e design de novos medicamentos
Então ainda faz sentido conceder monopólios sobre criações que já não são ‘difíceis’? No fim, a IA tratará até patentes como meras restrições a serem contornadas
Hoje, legalmente, saídas de IA não são protegidas por copyright, e só recebem proteção quando há intervenção humana substancial
Resultados do esforço humano devem ser protegidos para que grandes empresas não os peguem de graça
Só que talvez quem os resolva não sejam humanos
Desde o surgimento dos computadores isso já havia perdido o sentido, mas continuou vivo graças ao lobby.
Agora a IA talvez esteja pregando o último prego no caixão.
No fim, o que importa são os pesos (weights) do modelo, e eles deveriam ser públicos ou liberados à força para que todos tenham acesso
Alguém precisa testar isso na prática
A ideia seria colocar no Copilot o código-fonte vazado do Minecraft, gerar uma cópia totalmente idêntica em outra linguagem e publicá-la como open source
Fico curioso para saber se a Microsoft alegaria violação de copyright
Em vez disso, o pedido deveria ser “implemente Minecraft do zero”.
Só que texturas e modelos não poderiam ser reutilizados, então a IA teria de gerar novos
O seu exemplo é um caso com probabilidade muito mais clara de violação
E se alguém usar um LLM para remover a licença do código-fonte vazado do Windows e produzir código para o WINE?
Recentemente também tem havido muita discussão sobre tentativas de descompilação de binários com LLMs
Duas figuras do mundo open source entraram no debate, mas nenhuma delas é advogada especializada em IP
O advogado de fato, Richard Fontana, participou, mas a issue dele foi fechada
Em uma issue no GitHub, ele apontou que “conteúdo gerado por IA geralmente não é protegido por copyright”
Ou seja, se alguém apenas escreveu prompts sem editar o código diretamente, o simples ato de colocar uma licença MIT nesse código já tem grandes implicações jurídicas
Isso se parece mais com tirar uma fotografia. A câmera não tem copyright, mas o humano pode ter
Assim como alguém pode ser reconhecido como criador sem intervir pixel a pixel
Pela história da GPL, isso foi uma tentativa de combater copyright com copyright
O próprio nome ‘Copyleft’ já carrega esse sentido
Só que a IA está corroendo o próprio copyright.
Agora não só programas GPL, mas também software fechado pode ser reimplementado com IA
Nesse caso, o GNU deveria abandonar a GPL e usar LLMs como nova arma
Isso na verdade enfraquece a liberdade do open source e desloca o poder para as grandes empresas
Além disso, LLMs foram treinados com código de inúmeros voluntários, mas quem fica com os ganhos são as big techs
No fim, o apelo do open source pode diminuir, e o respeito às licenças também corre o risco de desaparecer
Em especial, garante ao usuário o direito de modificar o software executado em seu próprio dispositivo
Mas quando certas ferramentas, chaves ou especificações são limitadas, a reimplementação se torna impossível
No fim, pode ser como lutar pegando emprestada a arma de uma ‘empresa maligna’
Eu diria que a violação de licença já aconteceu
A maioria dos grandes modelos violou termos de serviço no processo de coleta de dados
Portanto, pode-se considerar que modelos treinados com código GPL foram infectados (infect) com a obrigação de licenciamento aberto
Do ponto de vista jurídico, o importante é ① se os dados foram obtidos legalmente, e ② se o output constitui expressão original
Neste caso, verificou-se que 98,7% era código novo
A verdadeira questão é o quanto o output é transformativo.
Esse também é o ponto central do processo NYT vs OpenAI
Blanchard disse que “passou apenas a API e os testes para o Claude e pediu uma nova implementação”,
mas isso é parecido com dizer “joguei tinta numa tela de olhos vendados e ela saiu em forma de Mickey Mouse”
Como ele era o mantenedor original daquele código, é difícil dizer que foi algo totalmente independente
Se configurou o sistema para gerar uma cópia a partir do código original, isso ainda é violação de copyright
Se a IA for só uma ferramenta, a responsabilidade é do usuário; se for um agente independente, ela mesma passa a ser a infratora
Desde que não copie diretamente os elementos de expressão
Se Blanchard divulgar todos os prompts, qualquer um poderá reproduzir o mesmo resultado
Pelo que eu entendi, a alegação era apenas que o Claude não viu o código
Segundo o artigo, Claude reimplementou a biblioteca recebendo apenas a API e os testes
Só que a GPL2 considera o conjunto de testes também parte do código-fonte
Então, se Claude usou os testes, o resultado pode ser uma obra derivada baseada no original segundo a LGPL 2.1
Ainda assim, talvez não seja possível redistribuir os testes sob licença MIT
Por isso, uma solução prática seria distribuir apenas o código sob MIT e os testes separadamente sob LGPL
Os casos de teste também podem ser vistos como parte desse uso de API
Na nossa empresa, começaram a usar reimplementação com IA para utilizar ferramentas que a equipe de segurança não aprova
A equipe de segurança segue uma política de ‘negação por padrão’, enquanto a engenharia segue uma política de ‘uso agressivo de IA’
No fim, surge uma estrutura estranha de incentivos em que se recriam ferramentas internas com IA
Se quiser outro resultado, é preciso redesenhar os incentivos primeiro
Se a IA consegue escrever repetidamente bom código de segurança,
por que acreditar que a mesma IA não pode validar a segurança de software de terceiros?
Eu gostaria de entender por que existiria essa assimetria entre produção e análise
As condições da GPL só entram em vigor no momento da distribuição (distribution)
É preciso divulgar o código-fonte ao distribuir código modificado ou oferecê-lo como serviço de rede
Porém, como oferecer um serviço de rede não é distribuição, criou-se a AGPL para cobrir essa lacuna