2 pontos por GN⁺ 2024-01-08 | 1 comentários | Compartilhar no WhatsApp
  • No commit 7e10f3e do repositório do Phi-2 no Hugging Face, os arquivos LICENSE, NOTICE.md e README.md foram alterados, mudando a indicação de licença para MIT
  • A nova LICENSE foi substituída pelo texto completo da MIT License, permitindo amplamente uso, cópia, modificação, distribuição, relicenciamento e venda
  • Várias cláusulas da antiga Microsoft Research License foram removidas, incluindo proibição de engenharia reversa, restrição de hospedagem independente, tratamento de dados pessoais, arbitragem e limitação de indenização
  • Os metadados do README agora usam license: mit em vez de license_name: microsoft-research-license, mantendo o link anterior para a LICENSE
  • O novo NOTICE.md informa flash-attention como componente de terceiros e inclui a BSD 3-Clause License e uma cláusula que permite engenharia reversa limitada para depuração de alterações em bibliotecas LGPL

Arquivos alterados no commit

  • O commit do repositório microsoft/phi-2 no Hugging Face aparece como “Upload 3 files”, e os alvos da mudança são os três arquivos LICENSE, NOTICE.md e README.md
  • Em Browse files é possível ver a lista de arquivos nesse estado do commit

LICENSE: substituição da Microsoft Research License pela MIT License

  • O arquivo LICENSE teve o texto da licença anterior removido e foi trocado pelo texto completo da MIT License
  • A nova LICENSE inclui a MIT License após as frases PhyAGI. e Copyright (c) Microsoft Corporation.
  • A MIT License concede gratuitamente a qualquer pessoa que obtenha o software e os arquivos de documentação relacionados os seguintes direitos
    • usar, copiar, modificar, mesclar
    • publicar, distribuir, relicenciar
    • vender cópias do software
    • conceder os mesmos direitos a quem receber o software
  • A condição é incluir o aviso de copyright e o aviso de permissão em todas as cópias ou partes substanciais do software
  • A isenção de garantia está incluída na forma AS IS, sem oferecer garantias expressas ou implícitas, incluindo comercialização, adequação a um fim específico e não violação
  • Os detentores de copyright e de direitos não assumem responsabilidade por reivindicações, danos ou obrigações decorrentes do uso do software ou de outras negociações relacionadas

Restrições antigas removidas

  • Várias restrições e cláusulas legais foram removidas da LICENSE anterior
  • Entre as cláusulas excluídas estavam
    • proibição de engenharia reversa, descompilação e desmontagem do material
    • proibição de remover, reduzir, bloquear ou modificar avisos da Microsoft ou de fornecedores
    • proibição de uso em desacordo com a lei ou com o objetivo de criar ou disseminar malware
    • proibição de compartilhar, publicar, distribuir ou alugar o material, fornecer solução de hospedagem independente ou transferi-lo a terceiros
  • Restrições relacionadas a privacidade também foram retiradas
    • dados que possam identificar uma pessoa não deveriam ser usados fora de finalidades aprovadas ou consentidas
    • não deveriam ser usados para contatar indivíduos
    • dados pessoais, backups e cópias deveriam ser destruídos assim que a pesquisa fosse concluída
  • Também foi removida a cláusula que dizia que, ao fornecer modificações à Microsoft, o usuário concederia uma licença ampla à empresa
  • Além disso, foram removidas cláusulas sobre publicação, feedback, restrições de exportação, serviços de suporte, arbitragem nos EUA e renúncia a ação coletiva, lei aplicável, direitos do consumidor, isenção de garantia e limitação de danos

Mudança nos metadados do README

  • A indicação de licença no front matter do README.md foi alterada
  • Os itens removidos foram
    • license:
    • license_name: microsoft-research-license
  • O novo item é license: mit
  • license_link: https://huggingface.co/microsoft/phi-2/resolve/main/LICENSE foi mantido
  • Os itens inference: false e language: - en também foram mantidos no diff exibido

NOTICE.md e aviso de componentes de terceiros

  • O novo arquivo NOTICE.md começa com as frases “NOTICES AND INFORMATION” e “Do Not Translate or Localize”
  • A Microsoft declara que este software inclui materiais de terceiros
  • Parte do código open source da Microsoft pode ser obtida em https://3rdpartysource.microsoft.com ou solicitada mediante envio de cheque ou ordem de pagamento de US $5.00 com o nome do produto, nome do componente open source, plataforma e número da versão
  • Independentemente de outras condições, este software pode passar por engenharia reversa na medida necessária para depurar alterações feitas em bibliotecas licenciadas sob a GNU Lesser General Public License
  • Entre os componentes está flash-attention
  • O aviso do flash-attention inclui a BSD 3-Clause License
    • redistribuições em código-fonte devem manter o aviso de copyright, a lista de condições e a cláusula de isenção
    • redistribuições em binário devem incluir o mesmo aviso, condições e isenção na documentação ou em outros materiais
    • sem autorização prévia por escrito, os nomes dos detentores de copyright ou dos contribuidores não podem ser usados para promover produtos derivados
  • O aviso da BSD 3-Clause também afirma que esse software é fornecido “AS IS” e que não há responsabilidade por danos diretos, indiretos, incidentais, especiais, punitivos ou consequenciais

1 comentários

 
GN⁺ 2024-01-08
Opiniões do Hacker News
  • É realmente empolgante ver esses modelos abertos surgindo.
    O interessante é que os “eticistas” de IA parecem querer agir como uma casta de altos sacerdotes que controla o acesso a modelos de machine learning em nome da segurança. Mas acho que o maior risco da IA está nas pessoas que controlam os modelos controlarem e censurarem o que as pessoas podem escrever com eles.
    Acredito que modelos open source nas mãos do público são a melhor defesa contra os riscos reais da IA, e aplaudo Facebook, Microsoft e Mistral por impulsionarem isso.

    • Enxergar os “eticistas” de IA dessa forma é uma interpretação maliciosa demais.
      Seria bom ler os argumentos reais, não resumos de redes sociais. Há discussões muito mais profundas do que parece, elas tratam amplamente dos riscos que preocupam você, e há soluções propostas. Essas soluções têm mais chance de funcionar de fato do que a alegação de que isso seria a “melhor defesa”.
    • Acho prejudicial retratar “todos” os eticistas de IA como uma casta sacerdotal que tenta bloquear o acesso aos modelos.
      Há muitas pessoas que valorizam tanto a democratização dessas ferramentas quanto seu uso seguro e ético.
    • Acho que agora o gato já saiu do saco.
      Esperar que pessoas mal-intencionadas respeitem os termos de uma licença nunca foi um bom mecanismo de controle. Isso só bloqueia o progresso e a inovação de pessoas bem-intencionadas o suficiente para cumprir a lei; pessoas com outras intenções em lugares como Rússia, Coreia do Norte e China, além de organizações criminosas e golpistas, não ficam presas a essas noções.
      A comunidade que trabalha sob licenças open source adequadas está crescendo, e coisas interessantes estão acontecendo cada vez mais rápido. Licenças alternativas têm pouco efeito, cortam a conexão com essa comunidade, complicam a colaboração e se tornam uma minoria cada vez menor no conjunto da pesquisa. Por isso, essas licenças vão ficando cada vez mais sem sentido.
      Corrigir isso deixa tudo simples e padronizado do ponto de vista jurídico, facilitando comercialização, colaboração e pesquisa. A Microsoft parece estar reconhecendo de forma racional que há valor nisso e se ajustando à realidade.
    • Quem pode garantir que o verdadeiro objetivo oculto desse investimento insano em IA não é criar uma infraestrutura de censura em massa?
    • Onde quer que haja valor concentrado, surge uma indústria de cracas que põe o pé no freio se você não pagar tributo a um exército de pessoas que não contribuem.
  • Antes, por ser uma licença não comercial, meu entusiasmo tinha esfriado um pouco.
    Considerando desempenho e tamanho, a mudança para uma licença mais favorável ao uso comercial é um acontecimento bem grande.

  • O importante é que este modelo tem ótima capacidade de raciocínio.
    Mas ele não foi treinado deliberadamente em grandes datasets de crawling da web para evitar que aprendesse coisas como fazer bombas ou cometer “maldades”.
    Por isso, mesmo comparado a modelos da mesma classe, ou até com mais parâmetros, ele é o modelo que “pensa de forma mais inteligente”, mas tem relativamente menos conhecimento de mundo e cultura geral.
    Isso pode mudar no futuro, mas acho que este é o estado atual.

    • Ainda assim, ele é excelente para aplicações de RAG.
      Porque quero que as respostas se baseiem nos dados que eu forneci, não no que ele aprendeu na web.
    • Se você enxergar modelos de linguagem grandes como tendo dois atributos — a capacidade de usar linguagem natural e o conhecimento para responder a perguntas —, então os modelos de linguagem pequenos podem ser vistos como modelos muito bons em processamento de linguagem natural.
      Muitas tarefas não precisam de conhecimento geral, e isso é uma grande vantagem especialmente em RAG.
    • Espero que o foco do modelo não seja embutir dados.
      É melhor fornecer os dados por meio de busca, e isso reduz respostas que “parecem convincentemente inteligentes, mas estão completamente erradas”.
      Com menos dados embutidos, ele também pode ser usado de forma mais geral fora do domínio de assistentes de chat. Muitas vezes queremos que o modelo saiba apenas os dados fornecidos pelo usuário.
      Por exemplo, em um jogo de fantasia medieval, seria muito estranho se um personagem de repente começasse a falar de política dos EUA. O Phi-2 também não resolveria isso completamente sem fine-tuning, mas esse é o ponto.
    • Acho que não treiná-lo com dados de crawling da web é uma forma de a Microsoft tornar menos descarado o fato de roubar propriedade e informações pessoais para monetização.
  • Estou mais curioso sobre o dataset do que sobre o modelo.

  • É uma excelente mudança e também mostra por que projetos open source independentes são importantes.
    É difícil acreditar que a disponibilização do TinyLlama sob a licença Apache 2.0 não tenha influenciado essa mudança.

    • Qual é a base para achar que o lançamento do TinyLlama teve influência?
  • Parece um sinal de que o Phi-3 e os modelos da próxima geração tornarão o Phi-2 obsoleto.

  • Este modelo ficou bastante tempo no topo; o que ele tem de tão bom?

    • O desempenho dele é excelente em relação ao tamanho do modelo e ao custo de inferência.
      É o melhor modelo capaz de rodar até em dispositivos pequenos, como celulares, entregando desempenho próximo ao do GPT-3.5.
      A arquitetura e os dados de treinamento também são interessantes. Por ser um modelo esparso que usa dados sintéticos selecionados, ele alcança uma precisão muito maior do que modelos treinados com texto aleatório da internet.