F/OSS Histomat: não devemos rejeitar os LLMs, e sim retomá-los

(writings.hongminhee.org)

14 pontos por hongminhee 2026-01-17 | 1 comentários | Compartilhar no WhatsApp

O argumento de que, em vez de bloquear o F/OSS do treinamento de LLMs, devemos libertar os modelos resultantes do treinamento

O texto recente 〈Sobre FLOSS e o treinamento de LLMs〉 (On FLOSS and training LLMs) expressa bem a frustração da comunidade F/OSS — a grosseria das empresas de IA, os limites da lei etc.
Porém, as estratégias de retirada propostas pelo autor, como bloquear crawlers, sair do GitHub e excluir usuários de ferramentas de IA, acabam perdendo uma oportunidade importante

O problema não é o treinamento, e sim o enclosure

O verdadeiro problema não é treinar LLMs com nosso código em si, mas sim o fato de que o resultado é apropriado como modelo proprietário
Isso não é um problema novo — é justamente o tipo de problema contra o qual o F/OSS vem lutando até hoje
- privatização dos bens comuns
- monopolização do conhecimento coletivo
- fluxo unilateral de valor da maioria para a minoria

O padrão histórico da GPL: nova tecnologia → nova exploração → nova licença

O licenciamento F/OSS tem evoluído continuamente em resposta às mudanças tecnológicas:

GPLv2 (1991) — impediu a distribuição apenas em binário → obrigação de divulgar o código-fonte
GPLv3 (2007) — impediu a Tivoization (bloqueio por hardware) → passou a exigir também informações de instalação
AGPL (2007) — fechou a brecha do SaaS → passou a considerar a oferta pela rede como distribuição

E agora? Surgiu a brecha do treinamento:

Empresas usam código F/OSS como dados de treinamento para modelos proprietários
Mas não têm obrigação de divulgar o modelo nem revelar a origem do treinamento
É exploração clássica — extração de valor sem reciprocidade

A solução: um copyleft de treinamento, como GPLv4 ou TGPL (Training GPL)

Condições propostas:

O treinamento é explicitamente permitido (em linha com o princípio de liberdade do F/OSS)
Mas o modelo resultante deve ser libertado — os pesos devem ser divulgados sob uma licença copyleft compatível
Obrigação de documentar os dados de treinamento
Modelos ajustados por fine-tuning também herdam a obrigação
Uso em rede (oferta via API) também é considerado distribuição

→ Assim como a GPLv3 exige código-fonte para binários, o copyleft de treinamento exigiria os pesos do modelo para sistemas treinados

Por que isso é mais importante do que se retirar

Problemas das estratégias de retirada:

Entregam o campo de batalha — OpenAI/Anthropic já raspou tudo o que precisava. A retirada só acaba barrando LLMs open source como Llama/Mistral
Erram o diagnóstico — o problema não é a tecnologia em si, mas quem a usa e como
Dividem a comunidade — excluir usuários de “ferramentas antiéticas”? Até onde vai o que conta como uso? Testes de pureza só servem para fragmentar o movimento
Abandonam a estratégia central do F/OSS — a genialidade da GPL foi não impedir o uso, e sim exigir a transmissão da liberdade. A retirada segue a filosofia oposta

Diferenças de leitura da realidade

antirez (criador do Redis): os LLMs são irreversíveis → é preciso se adaptar e confiar na concorrência de mercado
Autor do texto original: resistir ainda faz sentido → retirar-se e bloquear o acesso
Este texto: os LLMs são irreversíveis → mas a questão central é quem os possui

A pergunta não é se vamos usar LLMs, e sim:

Quem é dono dos modelos?
Quem se beneficia dos bens comuns que treinaram esses modelos?
O resultado das contribuições de milhões de desenvolvedores F/OSS deve mesmo se tornar monopólio?

→ A questão é se os frutos do trabalho coletivo permanecem com o coletivo ou viram propriedade privada

Este é um momento histórico de oportunidade

Neste momento, está em curso uma discussão sobre as normas que vão governar o treinamento de IA e a divulgação de modelos
O debate na comunidade está intenso
Com o aumento dos modelos de IA open source, ainda não está definido que tipo de licença será aplicada

Se os desenvolvedores F/OSS se retirarem: em 5 anos, empresas e tribunais favoráveis às empresas definirão todas as normas → a brecha do treinamento será consolidada → a IA open source ficará permanentemente em desvantagem

Se participarmos: pressionar por copyleft de treinamento → publicar código sob licenças que exijam a libertação dos modelos → nós mesmos construiremos o futuro

Conclusão em uma frase

Não devemos bloquear os crawlers, e sim mudar as regras do crawling. Não devemos rejeitar os LLMs, e sim retomá-los.

→ Uma perspectiva materialista da história: novas forças produtivas (LLMs) exigem novas relações de produção (copyleft de treinamento)
→ Assim como Linus publicou o Linux sob GPL dizendo não “empresas não podem usar”, mas “qualquer um pode usar, mas se melhorar, compartilhe”
→ Para um futuro em que, assim como o código pertence a todos, os modelos de IA treinados com ele também pertençam a todos

1 comentários

roxie 2026-01-23

Concordo com o conteúdo do texto. No entanto, quando me perguntam a partir de onde, contra o quê e até que ponto devemos lutar, fico sem saber por onde começar.