F/OSS Histomat: não devemos rejeitar os LLMs, e sim retomá-los
(writings.hongminhee.org)O argumento de que, em vez de bloquear o F/OSS do treinamento de LLMs, devemos libertar os modelos resultantes do treinamento
- O texto recente 〈Sobre FLOSS e o treinamento de LLMs〉 (On FLOSS and training LLMs) expressa bem a frustração da comunidade F/OSS — a grosseria das empresas de IA, os limites da lei etc.
- Porém, as estratégias de retirada propostas pelo autor, como bloquear crawlers, sair do GitHub e excluir usuários de ferramentas de IA, acabam perdendo uma oportunidade importante
O problema não é o treinamento, e sim o enclosure
- O verdadeiro problema não é treinar LLMs com nosso código em si, mas sim o fato de que o resultado é apropriado como modelo proprietário
- Isso não é um problema novo — é justamente o tipo de problema contra o qual o F/OSS vem lutando até hoje
- privatização dos bens comuns
- monopolização do conhecimento coletivo
- fluxo unilateral de valor da maioria para a minoria
O padrão histórico da GPL: nova tecnologia → nova exploração → nova licença
O licenciamento F/OSS tem evoluído continuamente em resposta às mudanças tecnológicas:
- GPLv2 (1991) — impediu a distribuição apenas em binário → obrigação de divulgar o código-fonte
- GPLv3 (2007) — impediu a Tivoization (bloqueio por hardware) → passou a exigir também informações de instalação
- AGPL (2007) — fechou a brecha do SaaS → passou a considerar a oferta pela rede como distribuição
E agora? Surgiu a brecha do treinamento:
- Empresas usam código F/OSS como dados de treinamento para modelos proprietários
- Mas não têm obrigação de divulgar o modelo nem revelar a origem do treinamento
- É exploração clássica — extração de valor sem reciprocidade
A solução: um copyleft de treinamento, como GPLv4 ou TGPL (Training GPL)
Condições propostas:
- O treinamento é explicitamente permitido (em linha com o princípio de liberdade do F/OSS)
- Mas o modelo resultante deve ser libertado — os pesos devem ser divulgados sob uma licença copyleft compatível
- Obrigação de documentar os dados de treinamento
- Modelos ajustados por fine-tuning também herdam a obrigação
- Uso em rede (oferta via API) também é considerado distribuição
→ Assim como a GPLv3 exige código-fonte para binários, o copyleft de treinamento exigiria os pesos do modelo para sistemas treinados
Por que isso é mais importante do que se retirar
Problemas das estratégias de retirada:
- Entregam o campo de batalha — OpenAI/Anthropic já raspou tudo o que precisava. A retirada só acaba barrando LLMs open source como Llama/Mistral
- Erram o diagnóstico — o problema não é a tecnologia em si, mas quem a usa e como
- Dividem a comunidade — excluir usuários de “ferramentas antiéticas”? Até onde vai o que conta como uso? Testes de pureza só servem para fragmentar o movimento
- Abandonam a estratégia central do F/OSS — a genialidade da GPL foi não impedir o uso, e sim exigir a transmissão da liberdade. A retirada segue a filosofia oposta
Diferenças de leitura da realidade
- antirez (criador do Redis): os LLMs são irreversíveis → é preciso se adaptar e confiar na concorrência de mercado
- Autor do texto original: resistir ainda faz sentido → retirar-se e bloquear o acesso
- Este texto: os LLMs são irreversíveis → mas a questão central é quem os possui
A pergunta não é se vamos usar LLMs, e sim:
- Quem é dono dos modelos?
- Quem se beneficia dos bens comuns que treinaram esses modelos?
- O resultado das contribuições de milhões de desenvolvedores F/OSS deve mesmo se tornar monopólio?
→ A questão é se os frutos do trabalho coletivo permanecem com o coletivo ou viram propriedade privada
Este é um momento histórico de oportunidade
- Neste momento, está em curso uma discussão sobre as normas que vão governar o treinamento de IA e a divulgação de modelos
- O debate na comunidade está intenso
- Com o aumento dos modelos de IA open source, ainda não está definido que tipo de licença será aplicada
Se os desenvolvedores F/OSS se retirarem: em 5 anos, empresas e tribunais favoráveis às empresas definirão todas as normas → a brecha do treinamento será consolidada → a IA open source ficará permanentemente em desvantagem
Se participarmos: pressionar por copyleft de treinamento → publicar código sob licenças que exijam a libertação dos modelos → nós mesmos construiremos o futuro
Conclusão em uma frase
Não devemos bloquear os crawlers, e sim mudar as regras do crawling. Não devemos rejeitar os LLMs, e sim retomá-los.
→ Uma perspectiva materialista da história: novas forças produtivas (LLMs) exigem novas relações de produção (copyleft de treinamento)
→ Assim como Linus publicou o Linux sob GPL dizendo não “empresas não podem usar”, mas “qualquer um pode usar, mas se melhorar, compartilhe”
→ Para um futuro em que, assim como o código pertence a todos, os modelos de IA treinados com ele também pertençam a todos
1 comentários
Concordo com o conteúdo do texto. No entanto, quando me perguntam a partir de onde, contra o quê e até que ponto devemos lutar, fico sem saber por onde começar.