Microsoft assume responsabilidade por processos de direitos autorais do Copilot em nome dos clientes
(blogs.microsoft.com)- Se um cliente comercial for processado por violação de direitos autorais pelo uso do Copilot ou de seus resultados, a Microsoft fará a defesa e arcará com valores de decisões desfavoráveis ou acordos
- Esse compromisso amplia o suporte existente de indenização por propriedade intelectual para os serviços comerciais do Copilot, incluindo Microsoft 365 Copilot, GitHub Copilot e Bing Chat Enterprise
- Os clientes devem usar os filtros de conteúdo e guardrails integrados aos produtos e não devem tentar criar conteúdo infrator com entradas sobre as quais não tenham direitos
- Segundo a atualização de 5 de janeiro de 2024, o compromisso passou a se chamar Customer Copyright Commitment e foi ampliado para clientes comerciais do Azure OpenAI Service
- A Microsoft não reivindica direitos de propriedade intelectual sobre os resultados do Copilot e entende que é preciso tratar em conjunto questões de direitos autorais, remuneração de criadores e concorrência na IA generativa
Compromisso de responsabilidade por direitos autorais do Copilot
- Em resposta às preocupações dos clientes de que o uso de resultados de IA generativa possa levar a reivindicações de violação de direitos autorais, a Microsoft lançou o Copilot Copyright Commitment
- Se um cliente comercial for processado por terceiros por violação de direitos autorais devido aos serviços Microsoft Copilot ou a seus resultados, a Microsoft defenderá o cliente e pagará valores de decisões desfavoráveis ou acordos
- Para ter cobertura, o cliente deve usar os guardrails e filtros de conteúdo integrados aos produtos da Microsoft
- A posição da Microsoft é que, como cobra de clientes comerciais pelo Copilot, os problemas jurídicos decorrentes do uso devem ser assumidos pela Microsoft, não pelos clientes
Escopo de aplicação e condições para clientes
- O Copilot Copyright Commitment amplia a garantia existente de indenização por IP da Microsoft para reivindicações de direitos autorais relacionadas ao uso do Copilot baseado em IA e a seus resultados
- O escopo inclui serviços comerciais pagos do Microsoft Copilot e o Bing Chat Enterprise
- Microsoft 365 Copilot: fornece IA generativa em Word, Excel, PowerPoint e outros aplicativos, permitindo que usuários raciocinem com base em seus próprios dados ou transformem documentos em apresentações
- GitHub Copilot: serviço que ajuda desenvolvedores a reduzir o tempo gasto em codificação repetitiva e dedicar mais tempo a resultados novos e transformadores
- Os clientes devem usar os filtros de conteúdo e outros sistemas de segurança integrados aos produtos
- Eles não devem tentar gerar conteúdo infrator nem fornecer aos serviços Copilot entradas para as quais não tenham direitos de uso adequados
- Esse benefício não altera a posição existente da Microsoft de que ela não reivindica direitos de propriedade intelectual sobre os resultados dos serviços Copilot
Preocupações com direitos autorais e equilíbrio de políticas
- A IA generativa aumenta a eficiência e a criatividade dos clientes, mas também levanta dúvidas sobre se o uso de seus resultados pode levar a reivindicações de violação de IP
- Escritores e artistas vêm questionando publicamente como suas obras são usadas em modelos e serviços de IA, e a Microsoft considera compreensíveis essas preocupações dos clientes
- Mesmo que haja áreas em que a legislação atual de direitos autorais seja clara, a IA generativa cria novas questões de política pública
- A Microsoft apresenta três objetivos em conjunto
- A IA deve contribuir para a disseminação do conhecimento e para a solução de desafios sociais
- Criadores devem controlar seus direitos previstos na legislação de direitos autorais e obter uma receita saudável a partir de suas criações
- O conteúdo necessário para treinar modelos de IA e fornecer fundamentação não deve ficar restrito a poucas empresas, bloqueando concorrência e inovação
Proteções integradas ao Copilot
- A Microsoft integra filtros e outras tecnologias para reduzir a possibilidade de o Copilot retornar conteúdo infrator
- Essas proteções são combinadas com trabalhos existentes de segurança digital, segurança e privacidade
- Os guardrails usados incluem classificadores, metaprompts, filtragem de conteúdo, monitoramento operacional e detecção de abuso
- A detecção de abuso inclui usos que possam violar conteúdo de terceiros
- O Copilot Copyright Commitment cria um incentivo para que clientes usem essas tecnologias, ajudando a respeitar melhor as preocupações com direitos autorais
Ampliação para o Azure OpenAI Service
- Segundo a atualização de 5 de janeiro de 2024, em 15 de novembro de 2023 a Microsoft ampliou o Copilot Copyright Commitment para o Customer Copyright Commitment
- A ampliação inclui clientes comerciais que usam o Azure OpenAI Service
- Mesmo em caso de processos por violação de direitos autorais devido ao uso de resultados do Azure OpenAI Service, a Microsoft defenderá o cliente e pagará valores de decisões desfavoráveis
- Essa ampliação é uma medida para lidar melhor com as preocupações dos clientes sobre possível responsabilidade por violação de IP decorrente do uso de resultados do Microsoft Copilot e do Azure OpenAI Service
- Para receber os benefícios do Customer Copyright Commitment, os clientes devem implementar os guardrails e medidas de mitigação obrigatórios fornecidos pela Microsoft
- A Microsoft oferece documentação e ferramentas para o Azure OpenAI Service que apoiam o uso responsável de IA e reduzem o risco de violação de conteúdo protegido por direitos autorais
Expansão da IA e proteção das criações
- A Microsoft vê essa medida como um primeiro passo e entende que as questões jurídicas criadas pela IA devem ser resolvidas pelo setor em conjunto com diversas partes interessadas
- Para os clientes, ela funciona como um compromisso de que a Microsoft assumirá a responsabilidade por direitos autorais de seus produtos
- A Microsoft vê de forma positiva os benefícios da IA, mas reconhece desafios e riscos, incluindo a proteção de criações
- A empresa afirma que é preciso trabalhar com o setor de tecnologia, escritores e artistas e seus representantes, autoridades governamentais, academia e sociedade civil para gerenciar riscos
- A Microsoft pretende dar continuidade a isso com novas iniciativas para que, no futuro, a IA avance a disseminação do conhecimento ao mesmo tempo que proteja os direitos e as necessidades dos criadores
1 comentários
Opiniões no Hacker News
A Microsoft deveria primeiro liberar um modelo do Copilot treinado com as bases de código internas do Azure, Windows e Office
Só assim daria para acreditar que a Microsoft realmente considera o Copilot uma tecnologia que não infringe direitos autorais
Os engenheiros internos já estariam familiarizados com as estruturas de dados, o estilo de código etc. do Copilot, aumentando a produtividade e melhorando muito a precisão
Além disso, códigos de terceiros no mundo todo ficariam cada vez mais próximos do estilo Microsoft, o que poderia facilitar contratações e treinamentos
A desvantagem de pessoas de fora obterem pequenas pistas sobre o código-fonte da Microsoft parece pouco significativa, considerando que já é possível obter muito mais informações descompilando os binários
Ela apenas está dizendo que assumirá a responsabilidade quando todas as seguintes condições forem atendidas: a saída realmente ocorreu, o usuário não desativou o filtro que a impediria, não a produziu intencionalmente e esse uso foi considerado ilegal
Há diferença entre código que precisa ser mantido privado contra agentes mal-intencionados e código que é público, mas tem restrições de uso que quem o recebeu deve conhecer
É parecido com o argumento do tipo: “se você acredita que contratos de licença são juridicamente válidos, publique a senha dos seus usuários com uma licença dizendo que ninguém deve usá-la”
Mesmo que não houvesse nenhum risco de violação, a Microsoft poderia não querer fazer essa divulgação
O GitHub Copilot era baseado no GPT-3 ajustado com repositórios de código públicos, e essa parte é o centro da controvérsia
Este post no blog trata do ecossistema mais amplo do Microsoft Copilot
A maioria das ferramentas usa o serviço Azure OpenAI API no backend e não é especializada em geração de código
Como IA generativa geralmente tem uma natureza transformativa, há uma grande chance de ser considerada uso justo
Se você realmente induzir, é possível obter resultados parecidos com código ou imagens existentes, mas os tribunais podem entender, de modo geral, que ela cria conteúdo novo que não existia antes, e isso pode valer especialmente para imagens
O Google Books copiou livros literalmente e os colocou em um banco de dados online, mas ainda assim foi considerado uso justo; portanto, a IA generativa, que é muito mais transformativa, tem alta probabilidade de entrar em uma consideração mais ampla de uso justo
Embora o Google Books fosse não comercial, os tribunais normalmente entendem que, quanto maior a transformação, menos rigorosamente podem aplicar os critérios de uso justo
https://ogc.harvard.edu/pages/copyright-and-fair-use
O Google Books era uso justo porque tinha interesse público, não prejudicava editoras nem autores e, pelo contrário, ajudava as pessoas a encontrar obras protegidas
Já a IA generativa extrai o essencial das obras das pessoas, cria resultados com estilo etc. semelhantes e pode excluir totalmente os autores originais, apropriando-se dos frutos de seu trabalho
Em especial, é um processo puramente mecânico, e não há criatividade humana além daquilo que foi extraído de outros autores. Um simples prompt dificilmente pode ser visto como criatividade
No fim, a lógica é próxima de “estamos usando obras protegidas por direitos autorais, mas tudo bem porque misturamos em grande escala”
Isso vai em uma direção desfavorável ao argumento de que a IA generativa é uso justo
Como a Corte vinculou especialmente a transformação ao impacto no mercado, fica muito mais difícil para um tribunal considerar transformativa uma IA generativa que produz saídas que competem diretamente com as entradas
No caso da geração de imagens, isso é ainda mais verdadeiro, pois ela compete claramente com imagens de banco de imagens
Não pode haver uma garantia abrangente do tipo “IA generativa em geral é uso justo”, e saber se o resultado é transformativo é apenas um entre vários fatores
Dá para perceber isso em casos de sampleamento de áudio ou remixes
Haverá exceções, como citar um livro em um artigo acadêmico, mas usar esses casos específicos só serve para procurar brechas em discussões na internet
O fato de o Copilot em si poder ser uma obra transformativa cuja existência é permitida não leva à conclusão de que um desenvolvedor não terá responsabilidade por violação de direitos autorais ao inserir suas saídas em sua própria obra
É o mesmo que dizer que nem todo resultado criado por outra pessoa está livre de problemas de direitos autorais. Não se afirma que uma pessoa, só por ter visto outra obra, seja ela própria uma obra infratora, mas o resultado é outra questão
https://www.notion.so/DSM-Directive-Implementation-Tracker-3...
https://eur-lex.europa.eu/eli/dir/2019/790/oj
A exceção de direitos autorais TDM4 permite a criação de conjuntos de dados compostos por obras protegidas por direitos autorais, desde que exista um mecanismo pelo qual os titulares possam se opor
O conjunto de dados se torna transparente, os titulares podem exercer seus direitos, e certas empresas de IA podem treinar com materiais protegidos por direitos autorais, então parece o melhor compromisso
É claro que isso não concede direitos comerciais sobre o modelo treinado; concede apenas direitos de pesquisa científica e acadêmica. Por exemplo, significa que a Meta treinar e publicar o modelo LLaMA treinado com livros é aceitável se não obtiver benefício comercial e se houver um mecanismo para os autores recusarem
Estou discutindo com Jordan, da https://spawning.ai, se é possível criar um sistema de recusa adequado para livros, e dá para imaginar uma abordagem semelhante para música
Isso é uma lei europeia, mas, ao contrário de outras regulações excessivas da UE, parece um compromisso muito razoável
Correção: Jordan me enviou um e-mail corrigindo que o entendimento correto é que o direito de recusa se aplica apenas à pesquisa comercial. Isso significa que criar conjuntos de dados para lugares como a Eleuther talvez não exija um processo de recusa, e ele se torna necessário quando a OpenAI os usa no GPT-5 e cobra por isso
Assim, essa lei de fato se aplica ao uso comercial de aprendizado de máquina, enquanto usos não comerciais como o LLaMA nem sequer precisam de direito de recusa
É excelente: dá proteção jurídica a pesquisadores e exige transparência dos conjuntos de dados para usos comerciais
Fico curioso se há detalhes concretos por trás deste anúncio
Sei que é um post de blog, mas todos os links da página levam apenas a outros posts de blog, então ficam muitas perguntas
Esse post de blog é um contrato legalmente executável? A Microsoft está especificamente indenizando todos os usuários contra reivindicações de violação de direitos autorais decorrentes do uso do Copilot?
O post diz que “há condições importantes neste programa” e lista algumas, mas não fica claro se essas são todas as condições ou se há outras que não aparecem no texto
Por exemplo, não sei se se aplica apenas a certos países ou a todos os sistemas jurídicos do mundo
Que garantia há de que a Microsoft não vai encerrar esse programa? Se os tribunais decidirem repetidamente contra ela e ela perceber que não tem como bancar indenizações toda vez que o Copilot lavar licenças de grandes blocos de código protegido por direitos autorais, os usuários teriam algum meio de obrigar a Microsoft a cumprir sua promessa?
Brad Smith, que é advogado, também deve entender isso
Caso contrário, por que exporia a Microsoft, uma empresa de US$ 2,5 trilhões, ao risco de uma garantia de responsabilidade ilimitada?
Existe o conceito de promissory estoppel
https://www.nolo.com/dictionary/promissory-estoppel-term.htm...
A documentação da Microsoft é numerosa e um pouco confusa, mas os documentos relacionados ao Copilot são relativamente claros, e a cláusula de indenização não mudou desde a primavera
Uma jogada muito inteligente da Microsoft
Essencialmente, é pintar um alvo gigante nas próprias costas para os processos que virão, com a avaliação de que eles têm recursos para brigar. E não é uma avaliação errada
Pelo rumo que a IA está tomando, em breve haverá jurisprudência importante
Para a Microsoft, é muito importante fazer esse mercado crescer o mais rápido possível e ficar no centro dele
Essa medida reduz um obstáculo central que leva organizações menores a hesitarem em adotar código gerado: a preocupação de “se este produto gerar código protegido por direitos autorais, eu vou ser processado?”
É como se a Microsoft estivesse jogando a luva e dizendo que “a gigantesca máquina jurídica da Microsoft vai lutar”
Basicamente, é uma demonstração de força do tipo “processe se quiser, venha tentar. Ou vá para casa”
Uma forma de entregar algum dinheiro ao lado white-collar, como um imposto administrável, enquanto evita que cresça rápido demais a pressão para que o governo a restrinja severamente
Depois vão ganhar tempo por alguns anos controlando o público e soltando press releases, enquanto consolidam sua posição
Há um grande asterisco: “os clientes não devem tentar gerar material infrator”
No fim, tudo depende de como a Microsoft define o que significa ter tentado gerar material infrator
A expectativa seria que isso excluísse apenas usos feitos com conhecimento da infração, como “reproduza todo o código-fonte de Half-Life 2”, mas, na prática, não dá para saber
Não confio que ela vá competir de forma justa, nem confio nela como empregadora
Também não confio que ela não vá fazer coisas corruptas em torno da política nacional, nem gostaria de tê-la como parceira em um projeto significativo
Mas uma coisa em que a Microsoft é realmente boa são transações entre empresas confiáveis e sustentáveis no longo prazo
Como cliente corporativo, eu confio nela. Se explorasse essa brecha, sua reputação desmoronaria
Não uso o Google Cloud Platform porque ele ferra clientes com frequência, mas confio na AWS e no Azure porque eles não fazem isso
O custo de pagar por infrações provavelmente é muito menor do que o custo de perder essa confiança
Ainda assim, a Microsoft passa a ter um incentivo ainda maior para fazer lobby para que a lei se forme de modo que haja pouquíssima responsabilidade no uso dessas ferramentas
Ainda assim, a pergunta sobre a Microsoft estar roubando e revendendo o código das pessoas continua de pé
Se você usa um LLM para responder perguntas sobre documentos da empresa, ele pode gerar, sem querer, material protegido por direitos autorais que estava no pré-treinamento
Pode não ser tão simples assim
Mesmo que a Microsoft assuma a responsabilidade, o infrator ainda pode ser processado separadamente. Depois disso, a Microsoft pode acabar arcando com os custos do processo
Mas ela não pode impedir categoricamente que usuários do produto sejam processados
A frase central é: “se um terceiro processar um cliente comercial por violação de direitos autorais em razão do uso do Microsoft Copilot ou da saída gerada, a Microsoft o defenderá e pagará o valor de decisões desfavoráveis ou acordos, desde que o cliente tenha usado as proteções e filtros de conteúdo integrados ao produto”
Aqui, “defenderá” é importante, e provavelmente significa que o usuário terá de usar os advogados da Microsoft, não os seus próprios
Como eles são internos, podem ser mais baratos do que advogados externos cobrando por hora
Também há condições sobre como o produto deve ser usado e, crucialmente, o usuário precisa documentar que o usou dessa forma
É um desenvolvimento interessante. É bem possível que clientes corporativos estivessem cautelosos por medo de cometer violação de direitos autorais acidentalmente ao usar essa ferramenta, e que isso tenha atrasado a adoção
Especialmente em casos em que o valor da indenização pode ser alto
O ponto principal é reduzir a resistência à adoção criada pelo risco jurídico
Aplica-se somente quando as proteções estiverem ativadas
Uma dessas proteções é impedir que o Copilot gere código que exista em qualquer repositório do GitHub
Testei o Copilot com as proteções ativadas e, na prática, ele ficou neutralizado a ponto de parecer que tinham cortado sua cabeça
A propósito, isso não é uma mudança nova. Os Termos Específicos do Produto Copilot já tinham uma cláusula dizendo que “se houver processo, a Microsoft assume a responsabilidade”: https://github.com/customer-terms/github-copilot-product-spe...
Fui bastante criticado em outra comunidade por causa desta resposta, mas, se um modelo estatístico cria um derivado puro como um modelo matemático que é essencialmente próximo de um previsor do próximo token ideal, isso é mesmo “roubo”?
Entender o próximo token ideal, ou até saber quais são os tokens que aparecem com mais frequência no GitHub, é “roubo”?
Dá para argumentar que todas as ideias valiosas já apareceram e que todos os textos úteis já foram escritos, então toda IA deveria ser ilegalizada; mas, se for assim, onde isso nos deixa?
Por exemplo, uma função que converte uma string de maiúsculas para minúsculas provavelmente será parecida com uma função escrita por outra pessoa em algum lugar do planeta; o mesmo vale para código de tratamento de erros ou para as técnicas mais recentes de centralizar uma div
É um tema sempre disputado nos tribunais
Se alguém treinasse e publicasse um modelo que, em resposta à entrada “When Mr. Bilbo Baggins”, gerasse a trilogia inteira de O Senhor dos Anéis, provavelmente teria violado direitos autorais
Por outro lado, se ele criasse um parágrafo genérico sobre “montanha” e “dragão”, sem citações diretas ou expressões significativas, provavelmente isso por si só não seria uma infração. Essas palavras aparecem nas obras de Tolkien, mas as palavras em si não são protegidas por direitos autorais
No entanto, se ficar provado que, para treinar o modelo, as obras de Tolkien foram copiadas de uma forma não permitida pela licença de direitos autorais, pode ter havido violação em uma etapa intermediária, mesmo que a saída do modelo já não pareça mais uma cópia do original
Acho que não há uma resposta preto no branco aqui. Em que ponto uma obra protegida por direitos autorais, depois de fragmentada e transformada em estatísticas, deixa de ser uma obra protegida por direitos autorais? É possível treinar um modelo sem primeiro copiar algo de uma forma que viole a lei de direitos autorais?
Esses são conceitos humanos maleáveis, decididos por pessoas em tribunais e órgãos legislativos, e não acho que os detalhes matemáticos façam grande diferença no resultado final
Porém, o que está em questão aqui não é furto, e sim violação de direitos autorais, que é um conceito distinto
Essa diferença sutil, mas fundamental, provavelmente também explica parte da recepção fria
Direitos autorais existem para proteger a expressão original de ideias manifestada na forma de uma obra criativa, não as ideias em si
Dá para construir um raciocínio parecido também para algoritmos de criptografia ou compressão
Fico curioso sobre o quanto esse tipo de promessa pública é vinculante
É parecido com Musk dizendo publicamente, recentemente, que arcaria com os custos de quem tivesse problemas no trabalho ou problemas legais por algo dito na plataforma, mas agora se recusando a cumprir essa promessa
Se uma base de código violou a GPL, as soluções são publicar o código-fonte em questão ou interromper a distribuição
Não acho que a Microsoft se importaria muito com qualquer uma dessas opções quando se trata de código de terceiros
Não sei como é a jurisprudência sobre indenizações em projetos open source, mas parece que não seria algo preocupante para a Microsoft
Em outras palavras, o risco de queda da Microsoft é mobilizar advogados, e o potencial de ganho é melhorar sua ferramenta de geração de código
Não sou advogado