Se não é possível reproduzir um modelo, então ele não é open source

xguru · 2024-01-22T10:27:01+09:00

A revolução da IA open source ainda não aconteceu Claro, existem modelos de pesos abertos impressionantes, e somos gratos a quem publica os pesos, mas se não é possível reproduzir o modelo, então ele não é verdadeiramente open source Imagine no Linux se apenas o binário fosse publicado, sem a base de código. Ou imagine que apenas a base de código fosse publicada, sem o compilador usado para gerar o binário. Essa é exatamente a situação de hoje Há várias desvantagens nisso Não é possível voltar a contribuir para o projeto O projeto não pode se beneficiar do ciclo de feedback do OSS É difícil verificar se não há backdoors no modelo (por exemplo, agentes adormecidos) Não é possível verificar se os filtros de dados e conteúdo estão alinhados com as políticas da empresa Para atualizar o modelo, é preciso depender da empresa Um projeto de LLM verdadeiramente open source, em que tudo é público, da base de código ao pipeline de dados, pode gerar muito valor e criatividade, além de melhorar a segurança Mas reproduzir os pesos não é algo tão simples quanto compilar código, então não é trivial. É preciso ter capacidade computacional e know-how. E revisar contribuições é difícil, porque não dá para saber como elas afetam o desempenho até executar o próximo treinamento Mesmo assim, pessoas ou grupos com motivação suficiente podem entender esses detalhes, e embora isso possa parecer bem diferente do OSS tradicional, esses novos desafios são o que torna esse espaço interessante

(twitter.com/amasad)

15 pontos por xguru 2024-01-22 | 3 comentários | Compartilhar no WhatsApp

A revolução da IA open source ainda não aconteceu
Claro, existem modelos de pesos abertos impressionantes, e somos gratos a quem publica os pesos, mas se não é possível reproduzir o modelo, então ele não é verdadeiramente open source
Imagine no Linux se apenas o binário fosse publicado, sem a base de código. Ou imagine que apenas a base de código fosse publicada, sem o compilador usado para gerar o binário. Essa é exatamente a situação de hoje
Há várias desvantagens nisso
- Não é possível voltar a contribuir para o projeto
- O projeto não pode se beneficiar do ciclo de feedback do OSS
- É difícil verificar se não há backdoors no modelo (por exemplo, agentes adormecidos)
- Não é possível verificar se os filtros de dados e conteúdo estão alinhados com as políticas da empresa
- Para atualizar o modelo, é preciso depender da empresa
Um projeto de LLM verdadeiramente open source, em que tudo é público, da base de código ao pipeline de dados, pode gerar muito valor e criatividade, além de melhorar a segurança
- Mas reproduzir os pesos não é algo tão simples quanto compilar código, então não é trivial. É preciso ter capacidade computacional e know-how.
- E revisar contribuições é difícil, porque não dá para saber como elas afetam o desempenho até executar o próximo treinamento
Mesmo assim, pessoas ou grupos com motivação suficiente podem entender esses detalhes, e embora isso possa parecer bem diferente do OSS tradicional, esses novos desafios são o que torna esse espaço interessante

3 comentários

coyai 2024-02-07

Verdade,

GitHub e Hugging Face há muito tempo deixaram de ser repositórios open source de verdade e se degeneraram em plataformas de marketing.
Alguns modelos nem sequer fornecem um binário executável (https://github.com/AIGCDesignGroup/ReplaceAnything)
Se só oferecem uma demo online e isso é usado apenas para divulgar uma demo de marketing da própria tecnologia deles, que tipo de plataforma open source é essa?
GitHub e Hugging Face, no fim das contas, também estão se tornando sites lixo, cheios de coisas falsas ou malfeitas, como as antigas redes sociais.

Portanto, open source agora está virando um mito ou uma lenda urbana. Na prática, dá para dizer que quase não existem modelos open source nesses sites no sentido verdadeiro do termo, isto é, perfeitamente reprodutíveis. A maioria é só jogada de marketing.

cosine20 2024-01-29

Eu entendo, mas... hoje em dia os modelos que estão saindo exigem um poder computacional e um tempo de treinamento difíceis de reproduzir para uma pessoa comum, então não sei muito bem como isso ficaria.
Ainda assim, no caso da divulgação do conjunto de dados, também concordo um pouco.

xguru 2024-01-22

Comentários do Hacker News

Imagine se o Linux fosse divulgado apenas como binário, sem a base de código, ou apenas com a base de código, sem o compilador. É exatamente nessa situação que estamos agora.
- É uma analogia que explica muito bem o problema atual dos "modelos open source". Ela deixa claro qual é o problema com modelos open source.
Vamos pegar o exemplo do CERN: eles divulgam vários dados experimentais sob licença CC0. Não se trata apenas de um pequeno dataset, mas de dados em larga escala, como todo o conjunto de dados da primeira execução do LHCb.
- O CERN não apenas divulga os dados e os deixa lá; ele também fornece guias de análise e ferramentas necessárias, como o ROOT, que em sua maioria também são open source. Isso permite que qualquer pessoa descubra algo novo ou expanda a análise de experimentos existentes. Esses dados e ferramentas abertos atendem às condições de reprodutibilidade, mas não exigem que os dados sejam regenerados diretamente. Em teoria, seria possível reconstruir o LHC, mas isso exigiria muita gente, dinheiro e tempo. Em contraste com os modelos open source, é possível retreinar um modelo para obter os pesos, mas o custo de obter os dados e reproduzir os pesos costuma ser enorme. Também é preciso lembrar que o CERN divulga versões mais refinadas dos dados, e não os dados brutos, que em sua maior parte são ruído. Baixar grandes volumes de dados brutos já é difícil, mas para treinar algo como um grande modelo de linguagem (LLM) pode ser necessário o dataset inteiro, o que frequentemente traz seus próprios problemas, incluindo questões de copyright.
O maior problema é divulgar o dataset. Aí pessoas e empresas vão processar alegando violação de copyright.
- Se o dataset incluir conteúdo protegido por copyright, os detentores desses direitos podem de fato entrar com processo. Eu não ficaria surpreso se o modelo tivesse incluído todo o dataset do Z-Library ou do Google Books.
A Open Source Initiative passou o último ano conduzindo uma série para coletar opiniões de vários stakeholders sobre se IA é open source.
- Já participei de uma sessão que durou uma tarde inteira no All Things Open. Recomendo conferir as discussões que já estão em andamento sobre esse tema. A questão é bem mais sutil do que cabe em um tuíte.
Aplicar o termo "open source" a modelos de IA é mais complicado do que aplicá-lo a software. Muita gente considera a reprodutibilidade um critério para considerar algo open source.
- No caso de modelos de IA, o próprio modelo, o dataset e a receita de treinamento — por exemplo, o processo e os hiperparâmetros — muitas vezes também são divulgados como código-fonte. Com isso, se você tiver capacidade computacional suficiente, pode treinar o modelo e obter os pesos.
O mesmo vale para open core — se você não consegue hospedar na sua própria infraestrutura, então não é software open source de verdade.
- Se não é possível hospedar na sua própria infraestrutura, isso não deve ser considerado software open source de verdade.
"O projeto não se beneficia do ciclo de feedback do OSS" Como não dá para enviar PRs de dados de treinamento para corrigir problemas específicos, como correção de bugs, não acho que veremos muito desse ciclo de feedback.
- "É difícil verificar se o modelo não tem backdoor" Considerando o tamanho do dataset e a opacidade do processo de treinamento, quase ninguém conseguiria saber se há backdoors nos dados de treinamento.
- "É difícil verificar os filtros de dados e conteúdo e confirmar se estão alinhados com a política da empresa" É possível aplicar a política da empresa à saída do modelo mesmo sem acesso aos dados de treinamento. Fica a dúvida se toda empresa realmente precisa filtrar os dados de entrada e treinar seu próprio modelo.
- "Você acaba dependente da empresa quando o modelo precisa ser atualizado" Dado o custo atual, isso já é verdade para a maioria das pessoas.
- "Um projeto de LLM verdadeiramente open source, com tudo aberto, da base de código ao pipeline de dados, pode liberar muito valor e criatividade e melhorar a segurança" No caso de LLMs, sou cético em relação a isso de modo geral. Em vez disso, isso pode criar uma superfície maior para atores maliciosos atacarem.
"A forma preferida da obra para fazer modificações nela é o 'código-fonte'."
- Citação da GPLv3
- Curiosamente, neste modelo de IA/ML os pesos são derivados do conjunto de treinamento, mas não é necessário ter acesso ao conjunto de treinamento original para modificá-lo. Existem muitos tutoriais mostrando como fazer fine-tuning sem acesso ao conjunto de treinamento original.
Discordo, e a analogia é inadequada. As coisas que ele listou podem ser feitas com um modelo treinado. Ter os dados é, na prática, uma questão que não desperta muito interesse. Software open/free trata da capacidade de exercer liberdades, e se você tem os pesos do modelo e o código, então pode exercer todas essas liberdades.
Existe algum modelo de LLM verdadeiramente open source em que todos os dados de treinamento sejam publicamente disponíveis (com licenças compatíveis), e o software de treinamento consiga reproduzir um modelo idêntico bit a bit?
- O treinamento é não determinístico? Sei que a saída de LLMs é intencionalmente não determinística.

Se não é possível reproduzir um modelo, então ele não é open source

Leituras relacionadas

3 comentários

Comentários do Hacker News