Microsoft assume responsabilidade por processos de direitos autorais do Copilot em nome dos clientes

(blogs.microsoft.com)

1 pontos por GN⁺ 2023-09-08 | 1 comentários | Compartilhar no WhatsApp

Se um cliente comercial for processado por violação de direitos autorais pelo uso do Copilot ou de seus resultados, a Microsoft fará a defesa e arcará com valores de decisões desfavoráveis ou acordos
Esse compromisso amplia o suporte existente de indenização por propriedade intelectual para os serviços comerciais do Copilot, incluindo Microsoft 365 Copilot, GitHub Copilot e Bing Chat Enterprise
Os clientes devem usar os filtros de conteúdo e guardrails integrados aos produtos e não devem tentar criar conteúdo infrator com entradas sobre as quais não tenham direitos
Segundo a atualização de 5 de janeiro de 2024, o compromisso passou a se chamar Customer Copyright Commitment e foi ampliado para clientes comerciais do Azure OpenAI Service
A Microsoft não reivindica direitos de propriedade intelectual sobre os resultados do Copilot e entende que é preciso tratar em conjunto questões de direitos autorais, remuneração de criadores e concorrência na IA generativa

Compromisso de responsabilidade por direitos autorais do Copilot

Em resposta às preocupações dos clientes de que o uso de resultados de IA generativa possa levar a reivindicações de violação de direitos autorais, a Microsoft lançou o Copilot Copyright Commitment
Se um cliente comercial for processado por terceiros por violação de direitos autorais devido aos serviços Microsoft Copilot ou a seus resultados, a Microsoft defenderá o cliente e pagará valores de decisões desfavoráveis ou acordos
Para ter cobertura, o cliente deve usar os guardrails e filtros de conteúdo integrados aos produtos da Microsoft
A posição da Microsoft é que, como cobra de clientes comerciais pelo Copilot, os problemas jurídicos decorrentes do uso devem ser assumidos pela Microsoft, não pelos clientes

Escopo de aplicação e condições para clientes

O Copilot Copyright Commitment amplia a garantia existente de indenização por IP da Microsoft para reivindicações de direitos autorais relacionadas ao uso do Copilot baseado em IA e a seus resultados
O escopo inclui serviços comerciais pagos do Microsoft Copilot e o Bing Chat Enterprise
- Microsoft 365 Copilot: fornece IA generativa em Word, Excel, PowerPoint e outros aplicativos, permitindo que usuários raciocinem com base em seus próprios dados ou transformem documentos em apresentações
- GitHub Copilot: serviço que ajuda desenvolvedores a reduzir o tempo gasto em codificação repetitiva e dedicar mais tempo a resultados novos e transformadores
Os clientes devem usar os filtros de conteúdo e outros sistemas de segurança integrados aos produtos
Eles não devem tentar gerar conteúdo infrator nem fornecer aos serviços Copilot entradas para as quais não tenham direitos de uso adequados
Esse benefício não altera a posição existente da Microsoft de que ela não reivindica direitos de propriedade intelectual sobre os resultados dos serviços Copilot

Preocupações com direitos autorais e equilíbrio de políticas

A IA generativa aumenta a eficiência e a criatividade dos clientes, mas também levanta dúvidas sobre se o uso de seus resultados pode levar a reivindicações de violação de IP
Escritores e artistas vêm questionando publicamente como suas obras são usadas em modelos e serviços de IA, e a Microsoft considera compreensíveis essas preocupações dos clientes
Mesmo que haja áreas em que a legislação atual de direitos autorais seja clara, a IA generativa cria novas questões de política pública
A Microsoft apresenta três objetivos em conjunto
- A IA deve contribuir para a disseminação do conhecimento e para a solução de desafios sociais
- Criadores devem controlar seus direitos previstos na legislação de direitos autorais e obter uma receita saudável a partir de suas criações
- O conteúdo necessário para treinar modelos de IA e fornecer fundamentação não deve ficar restrito a poucas empresas, bloqueando concorrência e inovação

Proteções integradas ao Copilot

A Microsoft integra filtros e outras tecnologias para reduzir a possibilidade de o Copilot retornar conteúdo infrator
Essas proteções são combinadas com trabalhos existentes de segurança digital, segurança e privacidade
Os guardrails usados incluem classificadores, metaprompts, filtragem de conteúdo, monitoramento operacional e detecção de abuso
A detecção de abuso inclui usos que possam violar conteúdo de terceiros
O Copilot Copyright Commitment cria um incentivo para que clientes usem essas tecnologias, ajudando a respeitar melhor as preocupações com direitos autorais

Ampliação para o Azure OpenAI Service

Segundo a atualização de 5 de janeiro de 2024, em 15 de novembro de 2023 a Microsoft ampliou o Copilot Copyright Commitment para o Customer Copyright Commitment
A ampliação inclui clientes comerciais que usam o Azure OpenAI Service
Mesmo em caso de processos por violação de direitos autorais devido ao uso de resultados do Azure OpenAI Service, a Microsoft defenderá o cliente e pagará valores de decisões desfavoráveis
Essa ampliação é uma medida para lidar melhor com as preocupações dos clientes sobre possível responsabilidade por violação de IP decorrente do uso de resultados do Microsoft Copilot e do Azure OpenAI Service
Para receber os benefícios do Customer Copyright Commitment, os clientes devem implementar os guardrails e medidas de mitigação obrigatórios fornecidos pela Microsoft
A Microsoft oferece documentação e ferramentas para o Azure OpenAI Service que apoiam o uso responsável de IA e reduzem o risco de violação de conteúdo protegido por direitos autorais

Expansão da IA e proteção das criações

A Microsoft vê essa medida como um primeiro passo e entende que as questões jurídicas criadas pela IA devem ser resolvidas pelo setor em conjunto com diversas partes interessadas
Para os clientes, ela funciona como um compromisso de que a Microsoft assumirá a responsabilidade por direitos autorais de seus produtos
A Microsoft vê de forma positiva os benefícios da IA, mas reconhece desafios e riscos, incluindo a proteção de criações
A empresa afirma que é preciso trabalhar com o setor de tecnologia, escritores e artistas e seus representantes, autoridades governamentais, academia e sociedade civil para gerenciar riscos
A Microsoft pretende dar continuidade a isso com novas iniciativas para que, no futuro, a IA avance a disseminação do conhecimento ao mesmo tempo que proteja os direitos e as necessidades dos criadores

1 comentários

GN⁺ 2023-09-08

Opiniões no Hacker News

A Microsoft deveria primeiro liberar um modelo do Copilot treinado com as bases de código internas do Azure, Windows e Office
Só assim daria para acreditar que a Microsoft realmente considera o Copilot uma tecnologia que não infringe direitos autorais
- A Microsoft provavelmente ganharia mais dinheiro fazendo isso
  Os engenheiros internos já estariam familiarizados com as estruturas de dados, o estilo de código etc. do Copilot, aumentando a produtividade e melhorando muito a precisão
  Além disso, códigos de terceiros no mundo todo ficariam cada vez mais próximos do estilo Microsoft, o que poderia facilitar contratações e treinamentos
  A desvantagem de pessoas de fora obterem pequenas pistas sobre o código-fonte da Microsoft parece pouco significativa, considerando que já é possível obter muito mais informações descompilando os binários
- A Microsoft não está alegando que o Copilot não possa cuspir código literalmente
  Ela apenas está dizendo que assumirá a responsabilidade quando todas as seguintes condições forem atendidas: a saída realmente ocorreu, o usuário não desativou o filtro que a impediria, não a produziu intencionalmente e esse uso foi considerado ilegal
  Há diferença entre código que precisa ser mantido privado contra agentes mal-intencionados e código que é público, mas tem restrições de uso que quem o recebeu deve conhecer
  É parecido com o argumento do tipo: “se você acredita que contratos de licença são juridicamente válidos, publique a senha dos seus usuários com uma licença dizendo que ninguém deve usá-la”
- Vazamento de dados sensíveis e violação de direitos autorais são coisas distintas, mas são preocupações relacionadas
  Mesmo que não houvesse nenhum risco de violação, a Microsoft poderia não querer fazer essa divulgação
- A última coisa de que o mundo precisa é de mais código escrito no estilo da API Win32
- Parece que aqui se refere ao GitHub Copilot, que é um produto separado dentro do portfólio da Microsoft
  O GitHub Copilot era baseado no GPT-3 ajustado com repositórios de código públicos, e essa parte é o centro da controvérsia
  Este post no blog trata do ecossistema mais amplo do Microsoft Copilot
  A maioria das ferramentas usa o serviço Azure OpenAI API no backend e não é especializada em geração de código
Como IA generativa geralmente tem uma natureza transformativa, há uma grande chance de ser considerada uso justo
Se você realmente induzir, é possível obter resultados parecidos com código ou imagens existentes, mas os tribunais podem entender, de modo geral, que ela cria conteúdo novo que não existia antes, e isso pode valer especialmente para imagens
O Google Books copiou livros literalmente e os colocou em um banco de dados online, mas ainda assim foi considerado uso justo; portanto, a IA generativa, que é muito mais transformativa, tem alta probabilidade de entrar em uma consideração mais ampla de uso justo
Embora o Google Books fosse não comercial, os tribunais normalmente entendem que, quanto maior a transformação, menos rigorosamente podem aplicar os critérios de uso justo
https://ogc.harvard.edu/pages/copyright-and-fair-use
- Muita gente diz que “a IA generativa como um todo provavelmente será reconhecida como uso justo”, mas acho que, na prática, a chance disso é menor que 50%
  O Google Books era uso justo porque tinha interesse público, não prejudicava editoras nem autores e, pelo contrário, ajudava as pessoas a encontrar obras protegidas
  Já a IA generativa extrai o essencial das obras das pessoas, cria resultados com estilo etc. semelhantes e pode excluir totalmente os autores originais, apropriando-se dos frutos de seu trabalho
  Em especial, é um processo puramente mecânico, e não há criatividade humana além daquilo que foi extraído de outros autores. Um simples prompt dificilmente pode ser visto como criatividade
  No fim, a lógica é próxima de “estamos usando obras protegidas por direitos autorais, mas tudo bem porque misturamos em grande escala”
- Se você viu a recente decisão da Suprema Corte em Warhol v. Goldsmith, sabe que o significado de transformação no uso justo foi redefinido de forma bastante significativa
  Isso vai em uma direção desfavorável ao argumento de que a IA generativa é uso justo
  Como a Corte vinculou especialmente a transformação ao impacto no mercado, fica muito mais difícil para um tribunal considerar transformativa uma IA generativa que produz saídas que competem diretamente com as entradas
  No caso da geração de imagens, isso é ainda mais verdadeiro, pois ela compete claramente com imagens de banco de imagens
- Uso justo não funciona dessa forma
  Não pode haver uma garantia abrangente do tipo “IA generativa em geral é uso justo”, e saber se o resultado é transformativo é apenas um entre vários fatores
  Dá para perceber isso em casos de sampleamento de áudio ou remixes
- O Google Books pode ser transformativo quanto ao uso e ao caráter, mas pegar resultados de busca do Google Books e colá-los no seu próprio livro não passa a ser uso justo por causa disso
  Haverá exceções, como citar um livro em um artigo acadêmico, mas usar esses casos específicos só serve para procurar brechas em discussões na internet
  O fato de o Copilot em si poder ser uma obra transformativa cuja existência é permitida não leva à conclusão de que um desenvolvedor não terá responsabilidade por violação de direitos autorais ao inserir suas saídas em sua própria obra
  É o mesmo que dizer que nem todo resultado criado por outra pessoa está livre de problemas de direitos autorais. Não se afirma que uma pessoa, só por ter visto outra obra, seja ela própria uma obra infratora, mas o resultado é outra questão
- Há muitos contra-argumentos, mas a UE parece concordar bastante com essa visão: https://creativecommons.org/wp-content/uploads/2021/12/CC-St...
  https://www.notion.so/DSM-Directive-Implementation-Tracker-3...
  https://eur-lex.europa.eu/eli/dir/2019/790/oj
  A exceção de direitos autorais TDM4 permite a criação de conjuntos de dados compostos por obras protegidas por direitos autorais, desde que exista um mecanismo pelo qual os titulares possam se opor
  O conjunto de dados se torna transparente, os titulares podem exercer seus direitos, e certas empresas de IA podem treinar com materiais protegidos por direitos autorais, então parece o melhor compromisso
  É claro que isso não concede direitos comerciais sobre o modelo treinado; concede apenas direitos de pesquisa científica e acadêmica. Por exemplo, significa que a Meta treinar e publicar o modelo LLaMA treinado com livros é aceitável se não obtiver benefício comercial e se houver um mecanismo para os autores recusarem
  Estou discutindo com Jordan, da https://spawning.ai, se é possível criar um sistema de recusa adequado para livros, e dá para imaginar uma abordagem semelhante para música
  Isso é uma lei europeia, mas, ao contrário de outras regulações excessivas da UE, parece um compromisso muito razoável
  Correção: Jordan me enviou um e-mail corrigindo que o entendimento correto é que o direito de recusa se aplica apenas à pesquisa comercial. Isso significa que criar conjuntos de dados para lugares como a Eleuther talvez não exija um processo de recusa, e ele se torna necessário quando a OpenAI os usa no GPT-5 e cobra por isso
  Assim, essa lei de fato se aplica ao uso comercial de aprendizado de máquina, enquanto usos não comerciais como o LLaMA nem sequer precisam de direito de recusa
  É excelente: dá proteção jurídica a pesquisadores e exige transparência dos conjuntos de dados para usos comerciais
Fico curioso se há detalhes concretos por trás deste anúncio
Sei que é um post de blog, mas todos os links da página levam apenas a outros posts de blog, então ficam muitas perguntas
Esse post de blog é um contrato legalmente executável? A Microsoft está especificamente indenizando todos os usuários contra reivindicações de violação de direitos autorais decorrentes do uso do Copilot?
O post diz que “há condições importantes neste programa” e lista algumas, mas não fica claro se essas são todas as condições ou se há outras que não aparecem no texto
Por exemplo, não sei se se aplica apenas a certos países ou a todos os sistemas jurídicos do mundo
Que garantia há de que a Microsoft não vai encerrar esse programa? Se os tribunais decidirem repetidamente contra ela e ela perceber que não tem como bancar indenizações toda vez que o Copilot lavar licenças de grandes blocos de código protegido por direitos autorais, os usuários teriam algum meio de obrigar a Microsoft a cumprir sua promessa?
- Então, até agora, isso parece mais relações públicas do que proteção jurídica de fato
  Brad Smith, que é advogado, também deve entender isso
  Caso contrário, por que exporia a Microsoft, uma empresa de US$ 2,5 trilhões, ao risco de uma garantia de responsabilidade ilimitada?
- Sobre “esse post de blog é um contrato legalmente executável?”, poderia ser
  Existe o conceito de promissory estoppel
  https://www.nolo.com/dictionary/promissory-estoppel-term.htm...
- Como advogado, procurei essa nova redação, mas nenhum dos documentos jurídicos que verifiquei parece ter sido atualizado para refletir isso
  A documentação da Microsoft é numerosa e um pouco confusa, mas os documentos relacionados ao Copilot são relativamente claros, e a cláusula de indenização não mudou desde a primavera
Uma jogada muito inteligente da Microsoft
Essencialmente, é pintar um alvo gigante nas próprias costas para os processos que virão, com a avaliação de que eles têm recursos para brigar. E não é uma avaliação errada
Pelo rumo que a IA está tomando, em breve haverá jurisprudência importante
Para a Microsoft, é muito importante fazer esse mercado crescer o mais rápido possível e ficar no centro dele
Essa medida reduz um obstáculo central que leva organizações menores a hesitarem em adotar código gerado: a preocupação de “se este produto gerar código protegido por direitos autorais, eu vou ser processado?”
- Exato. O ponto principal é esse
  É como se a Microsoft estivesse jogando a luva e dizendo que “a gigantesca máquina jurídica da Microsoft vai lutar”
  Basicamente, é uma demonstração de força do tipo “processe se quiser, venha tentar. Ou vá para casa”
- A Microsoft também tem dinheiro, então é um alvo atraente para processo
- Talvez a Microsoft veja isso simplesmente como a opção menos ruim
  Uma forma de entregar algum dinheiro ao lado white-collar, como um imposto administrável, enquanto evita que cresça rápido demais a pressão para que o governo a restrinja severamente
- Minha previsão é que eles poderão usar implantações em nuvem para fazer fork de partes importantes sob GPL e limitar as atualizações de segurança necessárias apenas ao próprio fork e à própria implementação
  Depois vão ganhar tempo por alguns anos controlando o público e soltando press releases, enquanto consolidam sua posição
Há um grande asterisco: “os clientes não devem tentar gerar material infrator”
No fim, tudo depende de como a Microsoft define o que significa ter tentado gerar material infrator
A expectativa seria que isso excluísse apenas usos feitos com conhecimento da infração, como “reproduza todo o código-fonte de Half-Life 2”, mas, na prática, não dá para saber
- Sinceramente, nesse ponto eu confio na Microsoft
  Não confio que ela vá competir de forma justa, nem confio nela como empregadora
  Também não confio que ela não vá fazer coisas corruptas em torno da política nacional, nem gostaria de tê-la como parceira em um projeto significativo
  Mas uma coisa em que a Microsoft é realmente boa são transações entre empresas confiáveis e sustentáveis no longo prazo
  Como cliente corporativo, eu confio nela. Se explorasse essa brecha, sua reputação desmoronaria
  Não uso o Google Cloud Platform porque ele ferra clientes com frequência, mas confio na AWS e no Azure porque eles não fazem isso
  O custo de pagar por infrações provavelmente é muito menor do que o custo de perder essa confiança
- No fim, o significado de “ter tentado gerar material infrator” não depende da Microsoft, mas de como o tribunal que fizer cumprir essa promessa vai enxergar a questão
  Ainda assim, a Microsoft passa a ter um incentivo ainda maior para fazer lobby para que a lei se forme de modo que haja pouquíssima responsabilidade no uso dessas ferramentas
- Isso é apenas uma redação jurídica dizendo “se houver violação de direitos autorais, a culpa é toda sua”
  Ainda assim, a pergunta sobre a Microsoft estar roubando e revendendo o código das pessoas continua de pé
- Essa é uma brecha grande o bastante para passar um caminhão
- Não acho que seja uma condição tão surpreendente ou restritiva
  Se você usa um LLM para responder perguntas sobre documentos da empresa, ele pode gerar, sem querer, material protegido por direitos autorais que estava no pré-treinamento
Pode não ser tão simples assim
Mesmo que a Microsoft assuma a responsabilidade, o infrator ainda pode ser processado separadamente. Depois disso, a Microsoft pode acabar arcando com os custos do processo
Mas ela não pode impedir categoricamente que usuários do produto sejam processados
A frase central é: “se um terceiro processar um cliente comercial por violação de direitos autorais em razão do uso do Microsoft Copilot ou da saída gerada, a Microsoft o defenderá e pagará o valor de decisões desfavoráveis ou acordos, desde que o cliente tenha usado as proteções e filtros de conteúdo integrados ao produto”
Aqui, “defenderá” é importante, e provavelmente significa que o usuário terá de usar os advogados da Microsoft, não os seus próprios
Como eles são internos, podem ser mais baratos do que advogados externos cobrando por hora
Também há condições sobre como o produto deve ser usado e, crucialmente, o usuário precisa documentar que o usou dessa forma
É um desenvolvimento interessante. É bem possível que clientes corporativos estivessem cautelosos por medo de cometer violação de direitos autorais acidentalmente ao usar essa ferramenta, e que isso tenha atrasado a adoção
- Litígios quase sempre são entregues a escritórios externos até por empresas como a Microsoft
  Especialmente em casos em que o valor da indenização pode ser alto
  O ponto principal é reduzir a resistência à adoção criada pelo risco jurídico
Aplica-se somente quando as proteções estiverem ativadas
Uma dessas proteções é impedir que o Copilot gere código que exista em qualquer repositório do GitHub
Testei o Copilot com as proteções ativadas e, na prática, ele ficou neutralizado a ponto de parecer que tinham cortado sua cabeça
A propósito, isso não é uma mudança nova. Os Termos Específicos do Produto Copilot já tinham uma cláusula dizendo que “se houver processo, a Microsoft assume a responsabilidade”: https://github.com/customer-terms/github-copilot-product-spe...
Fui bastante criticado em outra comunidade por causa desta resposta, mas, se um modelo estatístico cria um derivado puro como um modelo matemático que é essencialmente próximo de um previsor do próximo token ideal, isso é mesmo “roubo”?
Entender o próximo token ideal, ou até saber quais são os tokens que aparecem com mais frequência no GitHub, é “roubo”?
Dá para argumentar que todas as ideias valiosas já apareceram e que todos os textos úteis já foram escritos, então toda IA deveria ser ilegalizada; mas, se for assim, onde isso nos deixa?
Por exemplo, uma função que converte uma string de maiúsculas para minúsculas provavelmente será parecida com uma função escrita por outra pessoa em algum lugar do planeta; o mesmo vale para código de tratamento de erros ou para as técnicas mais recentes de centralizar uma div
- Não sou advogado de direitos autorais, mas, mesmo deixando IA de lado, obras derivadas e uso justo já são uma zona cinzenta
  É um tema sempre disputado nos tribunais
  Se alguém treinasse e publicasse um modelo que, em resposta à entrada “When Mr. Bilbo Baggins”, gerasse a trilogia inteira de O Senhor dos Anéis, provavelmente teria violado direitos autorais
  Por outro lado, se ele criasse um parágrafo genérico sobre “montanha” e “dragão”, sem citações diretas ou expressões significativas, provavelmente isso por si só não seria uma infração. Essas palavras aparecem nas obras de Tolkien, mas as palavras em si não são protegidas por direitos autorais
  No entanto, se ficar provado que, para treinar o modelo, as obras de Tolkien foram copiadas de uma forma não permitida pela licença de direitos autorais, pode ter havido violação em uma etapa intermediária, mesmo que a saída do modelo já não pareça mais uma cópia do original
  Acho que não há uma resposta preto no branco aqui. Em que ponto uma obra protegida por direitos autorais, depois de fragmentada e transformada em estatísticas, deixa de ser uma obra protegida por direitos autorais? É possível treinar um modelo sem primeiro copiar algo de uma forma que viole a lei de direitos autorais?
  Esses são conceitos humanos maleáveis, decididos por pessoas em tribunais e órgãos legislativos, e não acho que os detalhes matemáticos façam grande diferença no resultado final
- Não sou advogado, mas isso não é roubo
  Porém, o que está em questão aqui não é furto, e sim violação de direitos autorais, que é um conceito distinto
  Essa diferença sutil, mas fundamental, provavelmente também explica parte da recepção fria
- Sobre a parte de que “todas as ideias valiosas já apareceram, então toda IA deveria ser ilegal”, https://en.wikipedia.org/wiki/Copyright diz o seguinte
  Direitos autorais existem para proteger a expressão original de ideias manifestada na forma de uma obra criativa, não as ideias em si
- O funcionamento interno não importa
  Dá para construir um raciocínio parecido também para algoritmos de criptografia ou compressão
Fico curioso sobre o quanto esse tipo de promessa pública é vinculante
É parecido com Musk dizendo publicamente, recentemente, que arcaria com os custos de quem tivesse problemas no trabalho ou problemas legais por algo dito na plataforma, mas agora se recusando a cumprir essa promessa
Se uma base de código violou a GPL, as soluções são publicar o código-fonte em questão ou interromper a distribuição
Não acho que a Microsoft se importaria muito com qualquer uma dessas opções quando se trata de código de terceiros
Não sei como é a jurisprudência sobre indenizações em projetos open source, mas parece que não seria algo preocupante para a Microsoft
Em outras palavras, o risco de queda da Microsoft é mobilizar advogados, e o potencial de ganho é melhorar sua ferramenta de geração de código
Não sou advogado

Microsoft assume responsabilidade por processos de direitos autorais do Copilot em nome dos clientes

Compromisso de responsabilidade por direitos autorais do Copilot

Escopo de aplicação e condições para clientes

Preocupações com direitos autorais e equilíbrio de políticas

Proteções integradas ao Copilot

Ampliação para o Azure OpenAI Service

Expansão da IA e proteção das criações

Leituras relacionadas

1 comentários

Opiniões no Hacker News