3 pontos por GN⁺ 2026-03-07 | 1 comentários | Compartilhar no WhatsApp
  • O projeto open source chardet v7.0.0 reescreveu todo o código usando uma ferramenta de IA e mudou a licença de LGPL para MIT
  • O autor original afirma que esse processo pode violar a GPL e aponta que o resultado gerado por uma IA treinada no código original não é uma ‘implementação clean room’
  • No método clean room tradicional, duas equipes precisam ser separadas, mas a IA contorna essa barreira, tornando controversa a questão de se há ou não obra derivada
  • Ao mesmo tempo, como a Suprema Corte dos EUA não reconhece direitos autorais sobre obras geradas por IA, a titularidade e a validade da nova licença ficam ambíguas
  • Se esse tipo de caso for aceito, levanta-se o risco de que o sistema de Copyleft seja neutralizado

Reescrita baseada em IA e mudança de licença no projeto chardet

  • A biblioteca Python de detecção de codificação de caracteres chardet era originalmente um porte do código C++ da Mozilla e, por isso, estava vinculada à LGPL
    • Isso gerava incerteza jurídica para usuários corporativos
  • Os mantenedores usaram o Claude Code para reescrever todo o código e distribuíram a v7.0.0 sob a licença MIT
  • O autor original, a2mark, argumenta que essa medida viola a LGPL
    • O código modificado ainda deveria seguir a LGPL, e a alegação de “reescrita completa” seria inválida, pois se trata de um resultado gerado com exposição ao código original
    • Ele também afirma explicitamente que a geração de código por IA não concede direitos adicionais

Implementação clean room e o atalho da IA

  • A reescrita clean room tradicional é composta por duas equipes
    • A equipe A analisa o código original e redige uma especificação funcional
    • A equipe B escreve o novo código apenas com base nessa especificação, sem ver o original
  • Porém, quando a IA recebe o código LGPL original e gera a nova versão, essa separação processual desaparece
  • Se a IA gerou o resultado a partir de aprendizado sobre o código original, esse produto pode ser considerado uma obra derivada sob a LGPL

Decisão da Suprema Corte dos EUA e o paradoxo jurídico

  • Em 2 de março de 2026, a Suprema Corte dos EUA recusou analisar o recurso sobre o reconhecimento de direitos autorais para obras geradas por IA
    • Com isso, foi mantida a decisão da instância inferior sobre o requisito de ‘autoria humana (Human Authorship)’
  • Por causa disso, os mantenedores do chardet enfrentam três contradições jurídicas
    • Vácuo de direitos autorais: se obras geradas por IA não recebem proteção autoral, não há base legal para relicenciá-las como MIT
    • Armadilha da obra derivada: se a saída da IA for derivada do código original sob LGPL, isso configura violação de licença
    • Vácuo de titularidade: se a IA realmente gerou um código totalmente novo, ele entraria imediatamente em domínio público, tornando a própria licença MIT sem sentido

Impacto potencial sobre o sistema de Copyleft

  • Se for permitido mudar licenças por meio de reescrita com IA, existe a possibilidade de que os fundamentos do Copyleft entrem em colapso
  • Qualquer pessoa poderia fornecer um projeto GPL a um LLM, pedir que ele o “reescreva em outro estilo” e depois distribuí-lo sob licença MIT
  • O caso chardet v7.0.0 é avaliado como um exemplo real em que esses limites jurídicos e éticos estão sendo testados pela primeira vez

1 comentários

 
GN⁺ 2026-03-07
Comentários do Hacker News
  • Pela resposta do mantenedor, ele instruiu explicitamente o Claude a não consultar código LGPL/GPL, mas é muito provável que o modelo já tenha sido treinado com esse código
    Atualmente, entende-se que é impossível para um LLM "esquecer" completamente a influência dos dados de treinamento
    este projeto como pesquisa relacionada
    Sou desenvolvedor e advogado de propriedade intelectual, e esse tipo de questão continua evoluindo nos tribunais dos EUA
    Vale notar que o plano enterprise pago da Anthropic indeniza o usuário em caso de infração de direitos autorais, mas nos planos Free/Pro/Max acontece o contrário: o usuário deve indenizar a Anthropic (seção 11 dos termos)

    • O mantenedor afirma que “reescreveu do zero”, mas na prática reutilizou exatamente os dados de teste do chardet e é alguém que mantém o código original há mais de 10 anos
      Para ser uma verdadeira implementação clean-room, seria preciso separar quem conhece o original de quem faz a nova implementação, o que não aconteceu aqui
    • Houve discussão semelhante nesta thread
    • Já existiu pesquisa sobre impedir a memorização literal do texto original por meio de mascaramento aleatório de certos tokens durante o treinamento
      A ideia era preservar o significado enquanto removia partes das palavras para evitar citação direta
    • Foi útil descobrir pela primeira vez que a diferença nas cláusulas de indenização entre os planos pagos é algo importante
  • Este texto está entendendo errado o significado de “implementação clean-room”
    Não se trata simplesmente de “não olhar o código original”, mas de implementar de forma independente a partir da especificação da API
    Código gerado por LLM tem alta probabilidade de se parecer com o original, o que traz um grande risco de ser legalmente considerado uma cópia
    A conduta do mantenedor do chardet parece um relicenciamento irresponsável do ponto de vista jurídico e pode causar problemas na cadeia de suprimentos no futuro

    • Em resposta, citam uma explicação jurídica segundo a qual, se duas pessoas criaram o mesmo código de forma independente, cada uma pode ter seus próprios direitos autorais
    • Em direitos autorais, a reprodução só se caracteriza quando há fluxo de informação
      Se apenas se chegou ao mesmo resultado, isso é um resultado funcional e não infração autoral
    • Implementações baseadas em API também têm risco jurídico, como no caso Google vs Oracle
      Veja o artigo da Wikipédia
    • Há também o precedente de legalidade de reescrever sem olhar o original, como no caso clean-room da Phoenix com a BIOS do IBM PC
    • Se um processo completo de CRRE (clean-room reverse engineering) for seguido, mesmo que o código fique idêntico 1:1, isso não é reprodução do ponto de vista jurídico
      Ainda assim, em litígio real, quanto maior a semelhança, mais difícil é a defesa
      O caso do chardet, como a controvérsia sobre direitos autorais de fontes no Japão, pode acabar levando à suspensão da distribuição mesmo sem haver infração substancial
  • “Código LGPL continua sendo LGPL”
    A menos que todos os autores originais concordem explicitamente, não é possível mudar a licença
    O fato de uma IA ter transformado o código não faz os direitos autorais desaparecerem
    Se fosse assim, toda a indústria de copyright dos EUA ruiria

    • Juridicamente, não existe uma propriedade separada chamada “código LGPL”; o ponto central é se o ato de reprodução é permitido
      É uma questão complexa quando alguém que criou uma obra derivada sem autorização tenta depois conceder autorização sobre ela
    • Decisões da SCOTUS, na verdade, reforçam os direitos do autor original ao considerar que resultados feitos por IA não têm autoria criativa
    • Se fosse uma reescrita clean-room totalmente baseada em IA, talvez pudesse até ser vista como domínio público, mas casos realmente assim são raros
  • Por causa da IA generativa, o sistema de direitos autorais está ficando defasado
    As leis do passado presumiam modelos de finalidade única, mas agora surgiram modelos que podem competir com qualquer fonte
    A estratégia de licenciamento da GNU também pressupunha escassez de código, e isso perde força agora que gerar código ficou fácil demais

    • Se a IA recebe o código original como entrada e alguém pede para “reescrever”, isso é obra derivada; mas se recebe apenas uma descrição funcional, é uma nova criação
      Em um processo, os logs do Claude podem servir como prova
    • Também há a crítica de que isso seria “mudar a equação quebrando a lei”
    • A premissa tradicional de que ideias não são protegidas, mas expressões são, balança na era da IA
      Agora vivemos numa época em que gerar expressão é mais fácil do que formular a ideia
    • Há quem veja essa mudança, ao contrário, como um sinal positivo de ruptura da estrutura monopolista dos direitos autorais
    • O objetivo da GNU nunca foi a licença em si, mas a liberdade do usuário
      Um mundo em que qualquer pessoa pode criar código com IA estaria até mais próximo do ideal sonhado pela GNU
  • Levanta-se dúvida sobre a tese de que, se código feito por IA for uma nova criação de verdade, ele poderia cair em domínio público imediatamente após ser gerado
    Como não se sabe com quais dados o modelo foi treinado, isso poderia se enquadrar como engenharia reversa
    Por isso, defendem que se aplique a licença mais restritiva e que as empresas de IA repassassem receita aos autores originais

    • Nesse caso, valeria “All Rights Reserved” e não seria possível usar a saída da IA
      Na prática, modelos treinados apenas com dados autorizados têm desempenho muito baixo
      Se todo conteúdo gerado por IA fosse tratado como derivado, todos os projetos open source ficariam contaminados
    • A menos que a IA reproduza quase literalmente o original, tribunais dos EUA não costumam questionar o copyright dos dados de treinamento
      No fim, se ninguém além de uma pessoa puder reivindicar propriedade, isso acaba sendo tratado na prática como domínio público
    • Houve até uma sugestão em tom de piada de tratar todo código gerado por LLM como GPL v3
    • Também apareceu a visão cínica de que a lei só vai mudar quando os interesses da Disney forem afetados
    • A responsabilidade jurídica vai variar conforme a IA tenha usado o código original diretamente ou o tenha reescrito por meio de uma representação intermediária
  • Como discussão relacionada, há outra thread chamada “No right to relicense this project”

    • Aquilo parece ser apenas um projeto apropriado indevidamente, enquanto no caso do chardet a questão central é a legitimidade da reescrita por IA
  • Refutam a tese de que, se código feito por IA estiver em domínio público, a licença MIT deixa de fazer sentido
    Conteúdo gerado por IA não é mera cópia e ainda está sujeito às restrições de licença do original

    • Como resultados feitos por IA não são legalmente reconhecidos como obra autoral, ninguém pode conceder licença sobre eles
      Por exemplo, um gerador de poemas treinado com o Project Gutenberg também não poderia reivindicar copyright
    • Mas, no caso de código, os critérios jurídicos ainda não estão claros
      Macros, ferramentas de geração de código e recursos automáticos como Intellisense tornam nebulosa a fronteira do que conta como “gerado por IA”
    • Também houve uma correção de que o termo correto não é “copywrite”, e sim “copyright”
    • Há ainda a opinião de que conteúdos gerados por IA podem ter copyright reconhecido se houver intervenção criativa humana
  • Já houve no passado discussões sobre incluir o chardet na biblioteca padrão do Python, mas
    por causa da atual controvérsia sobre mudança de licença, essa possibilidade teria desaparecido
    Veja esta issue e também fala do mantenedor 1, fala 2

  • Esse tipo de relicenciamento por IA pode significar o fim do open source, especialmente do Copyleft
    Se a licença deixar de funcionar como proteção, os desenvolvedores vão voltar ao desenvolvimento fechado

    • Foi por isso que eu também parei completamente de publicar como open source
      Os modelos mais recentes já conseguem até fazer engenharia reversa de WebAssembly, o que faz tudo parecer uma espécie de teoria da floresta sombria
    • Isso não afeta só o open source, mas todos os projetos com código exposto
    • O objetivo da GPL não é “impedir usos indesejados”, mas exigir a divulgação do código-fonte em caso de modificação
      Se a reescrita por IA for GPL, ela também deve ser publicada
    • Houve também a objeção de que “fechar software livre” já contradiz desde o início a própria filosofia da liberdade
  • Concordam com a conclusão de que, se for possível mudar a licença por meio de reescrita com IA, então todo o sistema de copyright entra em colapso
    Porque isso se aplicaria a filmes, músicas, romances e qualquer outra obra criativa
    No fim, os tribunais não devem aceitar esse tipo de tentativa como forma válida de contornar direitos autorais,
    e esperam que o projeto chardet não vire um campo de testes diante dessa enorme onda jurídica