14 pontos por hongminhee 2026-01-17 | 1 comentários | Compartilhar no WhatsApp
O argumento de que, em vez de bloquear o F/OSS do treinamento de LLMs, devemos libertar os modelos resultantes do treinamento
  • O texto recente 〈Sobre FLOSS e o treinamento de LLMs〉 (On FLOSS and training LLMs) expressa bem a frustração da comunidade F/OSS — a grosseria das empresas de IA, os limites da lei etc.
  • Porém, as estratégias de retirada propostas pelo autor, como bloquear crawlers, sair do GitHub e excluir usuários de ferramentas de IA, acabam perdendo uma oportunidade importante
O problema não é o treinamento, e sim o enclosure
  • O verdadeiro problema não é treinar LLMs com nosso código em si, mas sim o fato de que o resultado é apropriado como modelo proprietário
  • Isso não é um problema novo — é justamente o tipo de problema contra o qual o F/OSS vem lutando até hoje
    • privatização dos bens comuns
    • monopolização do conhecimento coletivo
    • fluxo unilateral de valor da maioria para a minoria
O padrão histórico da GPL: nova tecnologia → nova exploração → nova licença

O licenciamento F/OSS tem evoluído continuamente em resposta às mudanças tecnológicas:

  1. GPLv2 (1991) — impediu a distribuição apenas em binário → obrigação de divulgar o código-fonte
  2. GPLv3 (2007) — impediu a Tivoization (bloqueio por hardware) → passou a exigir também informações de instalação
  3. AGPL (2007) — fechou a brecha do SaaS → passou a considerar a oferta pela rede como distribuição

E agora? Surgiu a brecha do treinamento:

  • Empresas usam código F/OSS como dados de treinamento para modelos proprietários
  • Mas não têm obrigação de divulgar o modelo nem revelar a origem do treinamento
  • É exploração clássica — extração de valor sem reciprocidade
A solução: um copyleft de treinamento, como GPLv4 ou TGPL (Training GPL)

Condições propostas:

  • O treinamento é explicitamente permitido (em linha com o princípio de liberdade do F/OSS)
  • Mas o modelo resultante deve ser libertado — os pesos devem ser divulgados sob uma licença copyleft compatível
  • Obrigação de documentar os dados de treinamento
  • Modelos ajustados por fine-tuning também herdam a obrigação
  • Uso em rede (oferta via API) também é considerado distribuição

→ Assim como a GPLv3 exige código-fonte para binários, o copyleft de treinamento exigiria os pesos do modelo para sistemas treinados

Por que isso é mais importante do que se retirar

Problemas das estratégias de retirada:

  1. Entregam o campo de batalha — OpenAI/Anthropic já raspou tudo o que precisava. A retirada só acaba barrando LLMs open source como Llama/Mistral
  2. Erram o diagnóstico — o problema não é a tecnologia em si, mas quem a usa e como
  3. Dividem a comunidade — excluir usuários de “ferramentas antiéticas”? Até onde vai o que conta como uso? Testes de pureza só servem para fragmentar o movimento
  4. Abandonam a estratégia central do F/OSS — a genialidade da GPL foi não impedir o uso, e sim exigir a transmissão da liberdade. A retirada segue a filosofia oposta
Diferenças de leitura da realidade
  • antirez (criador do Redis): os LLMs são irreversíveis → é preciso se adaptar e confiar na concorrência de mercado
  • Autor do texto original: resistir ainda faz sentido → retirar-se e bloquear o acesso
  • Este texto: os LLMs são irreversíveis → mas a questão central é quem os possui

A pergunta não é se vamos usar LLMs, e sim:

  • Quem é dono dos modelos?
  • Quem se beneficia dos bens comuns que treinaram esses modelos?
  • O resultado das contribuições de milhões de desenvolvedores F/OSS deve mesmo se tornar monopólio?

→ A questão é se os frutos do trabalho coletivo permanecem com o coletivo ou viram propriedade privada

Este é um momento histórico de oportunidade
  • Neste momento, está em curso uma discussão sobre as normas que vão governar o treinamento de IA e a divulgação de modelos
  • O debate na comunidade está intenso
  • Com o aumento dos modelos de IA open source, ainda não está definido que tipo de licença será aplicada

Se os desenvolvedores F/OSS se retirarem: em 5 anos, empresas e tribunais favoráveis às empresas definirão todas as normas → a brecha do treinamento será consolidada → a IA open source ficará permanentemente em desvantagem

Se participarmos: pressionar por copyleft de treinamento → publicar código sob licenças que exijam a libertação dos modelos → nós mesmos construiremos o futuro

Conclusão em uma frase

Não devemos bloquear os crawlers, e sim mudar as regras do crawling. Não devemos rejeitar os LLMs, e sim retomá-los.

→ Uma perspectiva materialista da história: novas forças produtivas (LLMs) exigem novas relações de produção (copyleft de treinamento)
→ Assim como Linus publicou o Linux sob GPL dizendo não “empresas não podem usar”, mas “qualquer um pode usar, mas se melhorar, compartilhe”
→ Para um futuro em que, assim como o código pertence a todos, os modelos de IA treinados com ele também pertençam a todos

1 comentários

 
roxie 2026-01-23

Concordo com o conteúdo do texto. No entanto, quando me perguntam a partir de onde, contra o quê e até que ponto devemos lutar, fico sem saber por onde começar.