Web scraping para mim, mas não para você

(blog.ericgoldman.org)

1 pontos por GN⁺ 2023-08-26 | 1 comentários | Compartilhar no WhatsApp

À medida que dados públicos da web se tornam um recurso central para IA generativa e para a concorrência entre plataformas, quem pode coletar dados se torna cada vez mais uma questão de direito, contratos e poder de mercado
Os dados que plataformas como LinkedIn e Facebook buscam proteger são, em geral, conteúdo gerado por usuários, uma área em que é difícil para a própria plataforma reivindicar diretamente direitos de propriedade
Os mecanismos para coibir scraping migraram das primeiras teorias de violação de bem móvel e da CFAA dos anos 2000 para reivindicações centradas em violação contratual após hiQ Labs v. LinkedIn
Como no processo da Twitter/X contra a Bright Data, disputas recentes se estreitam em torno de termos de uso para alegar violação contratual, interferência contratual e enriquecimento sem causa
Empresas podem bloquear dados de seus próprios sites como “proprietary”, ao mesmo tempo em que tentam coletar dados públicos de terceiros; os casos sobre dados de treinamento de IA generativa serão o próximo teste dessa contradição

Scraping é uma questão de acesso a dados

Web scraping é uma forma de obter em grande escala conhecimento publicado na internet, e a questão central é quem pode acessar e usar dados, e para qual finalidade
Alguns dados na internet podem ser protegidos por direitos autorais, marcas registradas ou outros direitos de propriedade intelectual, mas, em muitos casos, a parte que quer protegê-los não consegue reivindicar propriedade intelectual com facilidade
Empresas de redes sociais vêm movendo processos contra scraping de forma ativa, mas o conteúdo que LinkedIn e Facebook querem proteger é, em geral, conteúdo gerado por usuários
- Os termos de uso dão à plataforma uma licença para usar o conteúdo dos usuários, mas normalmente o interesse autoral permanece com o usuário
- As plataformas negam, nos termos, ter direitos de propriedade sobre esses dados, mas na prática tratam os dados como se fossem sua própria propriedade

A mudança nos instrumentos jurídicos para impedir scraping

No início da internet, a teoria de violação de bem móvel era usada como meio para coibir scraping
- A lógica era que solicitações massivas e indesejadas de dados invadiam servidores de computador, bens tangíveis privados
- Era necessário demonstrar dano, e no fim dos anos 1990 e início dos anos 2000 havia casos em que scrapers rudimentares sobrecarregavam sites ou os tiravam do ar
Com a mudança do ambiente tecnológico, essa teoria perdeu força persuasiva
- A capacidade dos servidores aumentou muito
- Muitos scrapers limitam o volume de requisições e operam em níveis difíceis de detectar pelo servidor hospedeiro ou com impacto mínimo
- Tornou-se raro comprovar dano real a servidores ou a bens tangíveis
Do início dos anos 2000 até 2017, o Computer Fraud and Abuse Act (CFAA) foi o principal instrumento de contenção
- A CFAA proíbe o acesso não autorizado a um “computador protegido”
- Em casos de scraping, a questão central era se o acesso depois de uma notificação de cessação ou de medidas antibot revogarem a autorização era “não autorizado”

Os resultados complexos de hiQ Labs v. LinkedIn

De 2001 a 2017, era comum a interpretação simples de que continuar acessando após a revogação da autorização gerava responsabilidade sob a CFAA
Em 2017, o caso hiQ Labs, Inc. v. LinkedIn Corp. chamou atenção por reconhecer direitos da scraper hiQ Labs em relação ao acesso a dados públicos do LinkedIn
- O Ninth Circuit entendeu que, se empresas como o LinkedIn pudessem decidir arbitrariamente quem coleta e usa dados que elas não possuem, disponibilizam publicamente e também coletam e usam, haveria risco de monopólio da informação
Mas esse resultado ficou próximo de uma vitória de Pirro
- Depois disso, o tribunal distrital concluiu que “o User Agreement do LinkedIn proíbe claramente o scraping e o uso não autorizado dos dados extraídos por scraping”
- Com base nisso, o LinkedIn obteve contra a hiQ Labs uma ordem judicial permanente e indenização por danos
Desde então, o principal instrumento para impedir scraping passou a ser a alegação de violação contratual, mais do que a CFAA

O direito contratual funciona, na prática, como direito de propriedade sobre dados

Recentemente, a Twitter/X Corp. moveu processos contra vários scrapers, incluindo a Bright Data
- A Bright Data é considerada uma das maiores empresas de web scraping do mundo
- As alegações feitas pela Twitter contra a Bright Data foram três: violação contratual, interferência contratual e enriquecimento sem causa
Há 10 anos, em processos sobre scraping, era comum que autores apresentassem de 10 a 15 reivindicações jurídicas e testassem várias teorias, mas recentemente cresceu a confiança de que os tribunais farão cumprir alegações de violação contratual
Nessa estrutura, por meio de termos de uso online, o site hospedeiro pode definir da maneira que quiser os direitos sobre os dados
O artigo de Mark Lemley de 2006 na Minnesota Law Review, Terms of Use, argumenta que, ao migrar do direito de propriedade para o direito contratual, o alcance dos direitos dos proprietários de sites passa a ser definido não pela lei, mas pelo próprio dono do site
Os tribunais vêm permitindo um sistema em que contratos online funcionam como uma espécie de direito temporário de propriedade intelectual sobre dados do site, em vez de regras gerais de uso de dados ou das normas tradicionais de propriedade intelectual
- Porém, pode haver problemas se isso for estruturado exatamente da mesma forma que a proteção autoral

A postura ambígua das empresas sobre scraping

Em um sistema jurídico que usa violação contratual como se fosse direito de propriedade, não há exigência de coerência
- Uma empresa pode afirmar com veemência, em seu próprio site, o que é “proprietary”
- Ao mesmo tempo, pode afirmar, em outros sites, o que seriam dados livremente coletáveis
A Microsoft atualizou recentemente seus termos gerais de uso para proibir scraping, harvesting e métodos semelhantes de extração em serviços de IA
No mesmo período, a afiliada da Microsoft OpenAI apresentou o GPTbot, projetado para fazer scraping da internet
Os termos de uso da OpenAI também proíbem scraping
A LinkedIn, subsidiária da Microsoft, declarou vitória em um dos processos de web scraping mais observados dos EUA e obteve uma ordem judicial permanente impedindo uma antiga concorrente de fazer scraping ou acessar dados públicos e privados de forma permanente
A Meta também processou uma empresa que fazia scraping e vendia conteúdo público, mas no passado houve um caso em que ela pagou a esse mesmo tipo de scraper para fazer scraping de dados públicos

Os tribunais e o próximo teste

Essa postura ambígua recebe críticas não apenas como um problema das empresas, mas porque os tribunais permitiram a estrutura que torna isso possível
Entre os alvos de crítica estão Register.com v. Verio, Inc., o Northern District of Texas, que viabilizou litígios relacionados à Southwest Airlines, e tribunais que, no caso hiQ Labs, não explicaram a inconsistência entre a liminar sob a CFAA e a ordem judicial permanente por violação contratual
Permitir que empresas privadas inventem direitos de propriedade intelectual por meio de contratos de adesão online pode fazer com que decisões sobre acesso a dados, que deveriam ser uma questão de interesse público, fiquem nas mãos de decisores privados
Como contratos, inclusive contratos online, são questão de direito estadual, é difícil imaginar uma solução simples
Uma possível solução mencionada é uma interpretação mais abrangente do princípio de preempção do direito autoral, mas a doutrina atual sobre preempção autoral é confusa devido a divergências entre circuitos, e a Supreme Court recusou recentemente uma oportunidade de resolver a questão
Independentemente do estado atual da lei, o próximo teste serão os casos de dados de treinamento de IA generativa, e as inconsistências jurídicas nessa área podem continuar gerando debates

1 comentários

GN⁺ 2023-08-26

Comentários do Hacker News

Fico confuso sobre em que ponto ficou o caso HiQ versus LinkedIn. Pelo que sei, o LinkedIn processou a HiQ, o Tribunal de Apelações do 9º Circuito ficou do lado da HiQ, o LinkedIn levou o caso até a Suprema Corte, mas a Suprema Corte citou Van Buren, anulou e remeteu o caso de volta, e o 9º Circuito reexaminou e chegou à mesma conclusão
Depois disso, o LinkedIn conseguiu derrubar a liminar que o impedia de bloquear a HiQ e, em novembro de 2022, parece que tudo acabou em um acordo confidencial depois de uma decisão mista. Todo mundo cita esse caso com frequência, mas raramente entra nos detalhes
Lendo o resumo da decisão de novembro de 2022, parece que a questão era a HiQ fazer as pessoas fazerem login, o que tornava os termos de uso aplicáveis; no fim, parece que o tribunal aceitou o argumento do LinkedIn de que a HiQ violou os termos de uso do LinkedIn
https://www.natlawreview.com/article/court-finds-hiq-breache...
- Relendo, acho que o fluxo correto é resumir assim. A hiQ pediu uma medida injuntiva contra o LinkedIn no Tribunal Distrital Federal do Norte da Califórnia e venceu na alegação baseada na CFAA; o LinkedIn recorreu ao Tribunal de Apelações do 9º Circuito, mas lá a hiQ também venceu na questão da CFAA
  A alegação antitruste da hiQ foi derrotada na fase de pedido de arquivamento e, por volta desse período, a hiQ fechou as portas, mas um patrocinador com muito dinheiro continuou pagando os custos do litígio. O LinkedIn prosseguiu com outras alegações, como quebra de contrato, e venceu no pedido de arquivamento; depois de Van Buren, a Suprema Corte devolveu o caso ao 9º Circuito, e o 9º Circuito novamente ficou do lado da hiQ na questão da CFAA
  Depois disso, a liminar foi suspensa, a hiQ perdeu quase tudo no julgamento sumário e, no fim, jogou a toalha, aceitou uma injunção permanente que atendia à maior parte das exigências do LinkedIn e pagou US$ 500 mil ao LinkedIn
- Mais do que uma decisão mista de novembro de 2022, foi uma derrota esmagadora da hiQ Labs. Basta ler a injunção permanente emitida pelo tribunal
- Não entendo o que seria um precedente jurídico de uma decisão mista. Nem sabia que isso era possível
Com o aumento dos “contratos” em forma de termos de uso, e com a vida na sociedade moderna se tornando quase impossível sem concordar com eles, esse problema piora a cada dia. Até comprar um SSD novo hoje vem acompanhado de aceite de termos
A lei importa cada vez menos, e nós somos cada vez mais governados por contratos de adesão impostos unilateralmente por grandes empresas
- Boa formulação. Acho que há duas maneiras de encarar uma página da web. Uma é a visão de que uma página da web é um outdoor; a outra é a de que uma página da web é um panfleto
  Se for um outdoor, então cobrir as partes de que eu não gosto — isto é, usar um bloqueador de anúncios — é moralmente errado. Quem é dono da página da web quer controle e prefere essa visão, e quem não consegue alterar a aparência da página, como um usuário comum, também tende a aceitá-la assim
  Se for um panfleto, tenho a liberdade de recortá-lo e reorganizá-lo como quiser. Tecnicamente, essa visão é mais correta. Uma página da web é apenas alguns bits de informação entregues a mim e, enquanto eu controlar meu computador, posso recortar esses bits e vê-los do jeito que eu quiser
  Dá para dizer que Amazon.com contém as páginas da Amazon e que a Amazon é dona dessas páginas. Mas eu sempre acessei Amazon.com apenas em dispositivos meus, ou de outras pessoas, que não pertencem à Amazon. Amazon.com não existe em um outdoor; ele precisa de dispositivos eletrônicos pertencentes a outras pessoas. Então, que direitos tem o proprietário desses dispositivos eletrônicos? Em que momento os pixels na minha tela passam a ser o seu espaço protegido?
- O exemplo mais absurdo é quando esses contratos aparecem também no mundo físico. De fato, há lojas que colocam placas dizendo que, ao entrar no estabelecimento, você é considerado como tendo aceitado os termos do contrato
  Para ler o contrato, você deve escanear um código QR com o celular, algo desse tipo. Vi algo parecido em um parque: ao entrar, você ficava vinculado a um acordo legal de não processar o parque ou de seguir as regras publicadas
- Para combater isso, os clientes também deveriam ter seu próprio contrato em forma de termos de uso. Bastaria dizer que, se a empresa me aceitar como cliente, o contrato próprio dela fica sem efeito
  Você pagaria mensalmente a uma organização como uma cooperativa de clientes ou seguradora, apoiada por uma equipe jurídica. Esse contrato seria tão executável, ou inexequível, quanto o contrato da empresa, então haveria equilíbrio. Assim, não seria preciso ler o que a empresa escreveu nas letras miúdas
  Se a empresa não aceitar o contrato do cliente ou não permitir contornar seus próprios termos, basta ir embora. A transação não acontece e outra empresa fica com o cliente
- O direito contratual moderno viola continuamente os direitos de propriedade privada. As cláusulas de arbitragem obrigatória tornam isso ainda pior
A sensação de que parece hipocrisia desaparece em certa medida quando se vê isso não como cooperação ou uma comunidade igualitária, mas como competição. Na prática, é competição mesmo. Ninguém diz a um time de futebol: “Tudo bem você tentar fazer gol em mim, mas quando eu tento fazer gol você de repente bloqueia a bola?”
Naturalmente, eles vão dizer “web scraping consome recursos, então pare”, enquanto continuam fazendo web scraping nos bastidores
É claramente uma atitude ruim, mas não acho que seja hipócrita. Porque é totalmente coerente com empresas imorais, em conflito constante, tentando maximizar o próprio interesse e minimizar o dos outros
- É uma comparação interessante, mas não sei se é o enquadramento correto. Tornar o scraping tecnicamente difícil corresponde a uma tentativa de fazer gol; portanto, mesmo que não seja lá muito bom para o mundo como um todo, talvez não seja hipocrisia
  Mas tentar impedir uma determinada ação por meios legais é mais parecido com jogar da mesma forma e pedir ao juiz que proíba certo tipo de jogada. Isso também acontece com frequência nos esportes, mas em geral parece hipocrisia
- Dizer “web scraping consome recursos, então pare” se refere a um custo que se deve esperar ao publicar algo na internet aberta. As pessoas vão acessá-lo. Não há direito de reclamar que pessoas estão acessando algo que foi colocado ali para o público ver
  Claro que scrapers também podem fazer coisas irritantes. Podem martelar servidores sem parar por preguiça ou baixar repetidamente o mesmo conteúdo por engano. Mas não é preciso um processo para isso. Se chegar ao nível de ataque de negação de serviço, as leis existentes já conseguem lidar com o caso
  Se algumas empresas tornam tudo pior para todos e enriquecem apenas a si mesmas, devemos repensar se elas deveriam continuar recebendo o privilégio da personalidade jurídica. Não precisamos permitir parasitas e saqueadores que pegam o que querem às nossas custas
- Hipocrisia não existe apenas quando alguém acredita de boa-fé nos ideais que proclama, mas na prática não consegue cumpri-los. Mesmo que a analogia com o futebol turve a questão, o fato não muda: impõem um padrão aos outros sem aplicar o mesmo padrão a si mesmos
  Mesmo que façam isso de forma imoral e mal-intencionada, ainda é hipocrisia. Na verdade, quanto mais for assim, mais hipócrita é. O que importa é qual política é defendida; não acreditar sinceramente nela não isenta ninguém
- O problema da lógica de que “empresas imorais são assim mesmo” é que a razão pela qual se permite que empresas existam está na premissa de que elas geram um benefício líquido para a sociedade como um todo. Se essa premissa desaparece, também desaparece o motivo para a sociedade não enxergar as empresas como pesadelos lovecraftianos famintos e eliminá-las com fogo e navios a vapor
- No futebol, as regras foram ajustadas inúmeras vezes para criar um jogo justo. Parece que precisamos de um pouco mais desse tipo de ajuste também no direito societário
Não entendo por que isso mostraria hipocrisia. Há uma grande diferença entre rastrear a web publicamente acessível e fazer scraping de uma aplicação web autenticada ou de uma API. Mecanismos de busca legítimos sempre fazem crawling da web pública
- A hipocrisia aparece aqui. A OpenAI e outras empresas fizeram scraping da web pública para treinar e criar modelos, e vendem assinaturas com esses modelos, mas nada volta para os criadores dos dados de treinamento
  Ao mesmo tempo, proíbem outras pessoas de fazer o que elas mesmas fizeram
  Comparar com mecanismos de busca é diferente. Mecanismos de busca vasculham a web pública para criar um índice de pesquisa e, com esse índice, oferecem resultados de busca e anúncios. O ponto importante é que os resultados de busca geralmente enviam pessoas para os sites vasculhados, dando a esses sites a oportunidade de ganhar dinheiro
- É verdade que a Microsoft investiu na OpenAI, mas ela não controla a OpenAI
Vejo dois problemas. Web scraping é claramente um problema de modelo de negócio, e parte disso se deve à escala
Se você oferece conteúdo de graça e tenta sustentá-lo com anúncios, no momento em que outra pessoa captura o valor do conteúdo sem ver os anúncios, esse modelo começa a ruir. Bloqueadores de anúncios, respostas incluídas nos resultados de busca do Google, clones do Stack Overflow e coisas como o ChatGPT são exemplos
O outro problema é a escala, e não sei como resolver isso. Quando o governo cria uma política amigável dizendo que se pode usar uma pá no parque, ele pode imaginar que isso será útil para pessoas como campistas. Mas a história muda quando aparece uma equipe profissional de mineração a céu aberto
Para um site que oferece boas informações de graça e ganha dinheiro vendendo livros ou serviços profissionais, isso pode ser um meio de vida viável. Mesmo que a resposta entre na caixa de respostas do Google, conteúdos ou análises mais complexos ainda exigem que as pessoas visitem e leiam, e dali podem surgir seguidores
Mas se algo como o ChatGPT puder “ler” meus textos e distribuir 80% do valor sem que a fonte fique clara, acabou. O modelo de negócio deixa de funcionar. Todo modelo baseado em compartilhar boas informações gratuitamente fracassa. É o mesmo problema que artistas estão enfrentando agora
Não vejo como consertar isso sem algum tipo de proibição. Mas, a menos que todos os países apliquem isso, teremos de nivelar pelo menor denominador comum e, no fim, bloquear todo o conteúdo. Nada de busca na web, nada de respostas do Google, nada de ChatGPT. Escrever “por favor, não faça scraping” no robots.txt não vai funcionar
- O interessante é que isso, em essência, é quase exatamente igual ao debate tradicional sobre direitos autorais. A única diferença é que autores de livros normalmente não distribuem seus livros de graça em seus sites pessoais
  Direitos autorais são uma tentativa de proteger o modelo de negócio de autores que querem vender algo extremamente fácil e barato de copiar. Tentar restringir legalmente o web scraping é uma tentativa de proteger o modelo de negócio de criadores que oferecem de graça algo fácil e barato de copiar, mas exigem que a pessoa venha diretamente ao criador para pegar a cópia gratuita
- Exato. Por isso, o scraping deveria ser ilimitado e legal para todos. Todas as informações acessíveis na internet deveriam poder ser processadas legalmente
  Portanto, também deveríamos poder usar serviços GPT para treinar nossos próprios modelos ou fazer scraping de qualquer coisa publicamente acessível. Nossa única defesa é um serviço concorrente que processe dados melhor do que qualquer modelo de linguagem grande de uso geral. A solução quase sempre é concorrência justa, não regulação
- Não acho que paywalls resolvam isso. Para um scraper, uma única conta paga basta. Se for apenas para “ler” novos textos conforme são publicados, até limite de velocidade é praticamente difícil de aplicar
  Depois que os dados são obtidos, podem ser distribuídos. Se publicar diretamente for violação de direitos autorais, bastará contornar isso escondendo atrás de IA e deixando tudo mais difuso
Se bibliotecas gratuitas de empréstimo e índices de busca na web não existissem e alguém tentasse criá-los hoje, teriam sido completamente destruídos por processos
A principal base em que esses casos se apoiam é uma compreensão vaga de acordos contratuais. Minha opinião é dupla. EULA não é um documento que as empresas criaram para as pessoas assinarem e, para começo de conversa, acho que EULA é lixo
É totalmente unilateral, e grande parte provavelmente seria ilegal ou não se sustentaria em tribunal se alguém realmente tivesse recursos para brigar
A responsabilidade de garantir que a pessoa leu e entendeu o EULA deveria ser da empresa que o criou; se ela não conseguir provar, antes do acesso ao site, que a pessoa entendeu todo o EULA, ele não deveria ser executável. EULA não é um contrato comercial. É uma espécie de pseudodireito corporativo que uma empresa tenta anexar ao uso de um produto
Que produto no mundo vem acompanhado de uma longa lista de regras sobre como usá-lo, dizendo que você pode ser processado se as violar?
Então, quando isso volta para “scraping de empresa contra empresa”, se você colocou algo na web e não tem copyright real sobre esse conteúdo, ou seja, se não foi você quem o criou, não tem o direito de protegê-lo contra “roubo”
Claro que sei que a John Deere impede clientes de consertarem seus próprios tratores, mas isso também é besteira
- Esses acordos online muitas vezes são executáveis, mesmo que as empresas tenham muitos recursos para se defender
O caso Register.com vs. Verio, linkado, foi interessante. Acho que o tribunal tomou uma decisão mais sutil sobre contratos de termos de uso do que geralmente se imagina
Nesse caso, a Verio chamou a API da Register para uma finalidade proibida pela Register. Só que a Register só fornecia o texto do “contrato” que declarava a restrição depois que a chamada terminava. Provavelmente fazia parte da resposta da API
O tribunal de fato entendeu que isso era tarde demais. Se a única forma de conhecer as condições de uma chamada de API é chamar essa API, isso é um contrato shrink-wrap, e as condições são inválidas
No entanto, o tribunal aplicou esse entendimento apenas à primeira chamada à API. A Verio tinha funcionários dos quais se podia esperar bom senso e, depois da primeira chamada, eles tiveram a oportunidade de ler o texto e conhecer a restrição. Portanto, em todas as chamadas subsequentes à API, os funcionários da Verio sabiam que estavam fazendo algo expressamente proibido pela Register e ainda assim o fizeram; por isso, o tribunal considerou isso uma violação contratual
O ponto importante é que o tribunal não abandonou o princípio de que, para celebrar um contrato, uma pessoa precisa conhecer seus termos. Na prática, esse caso está mais próximo de rejeitar uma situação em que alguém conhece os termos, mas finge não conhecer
[1] https://en.m.wikipedia.org/wiki/Register.com_v._Verio
O caso do Allen Institute discutido na semana passada é um bom exemplo
https://news.ycombinator.com/item?id=37181415
Eles “abriram” um dataset criado a partir de material em domínio público coletado por scraping, mas anexaram uma licença que restringia como as pessoas poderiam usá-lo
A afirmação de que “o conteúdo que eles tentam proteger não é deles, mas dos usuários” é correta só até certo ponto. O Facebook diz que o conteúdo pertence aos usuários. Assim fica mais fácil explicar que eles não são responsáveis quando há conteúdo ilegal
Mas o usuário também concorda em conceder ao Facebook uma “licença mundial, não exclusiva, transferível, sublicenciável e isenta de royalties para usar qualquer conteúdo de propriedade intelectual que você publicar no Facebook ou em conexão com o Facebook”
Por exemplo, mesmo que um usuário exclua seu próprio conteúdo, o Facebook ainda pode usá-lo e mostrá-lo aos amigos. Por isso acho que é “até certo ponto”
- Isso não muda a quem o conteúdo pertence. Apenas concede alguns direitos ao Facebook. Na verdade, se não houver termos como “perpétua” ou “irrevogável”, isso não significa que ele possa continuar usando depois da exclusão, nem que a concessão de direitos não possa ser revogada
- Licença não é propriedade. De qualquer forma, essa parte do texto é apenas contextual; o que foi explicado aqui não é a base jurídica dos processos ou decisões discutidos. É a parte que explica por que o direito de propriedade não foi usado
- Você leu a placa afixada? Ela dizia: “Proibido caminhar na estrada fora da minha propriedade privada”
- Acho que não está correto dizer que, mesmo que um usuário exclua seu próprio conteúdo, o Facebook pode continuar usando-o e mostrá-lo aos amigos. Se eu pedir ao Facebook para excluir meus dados da plataforma e eles não forem excluídos em até 1 mês, o Facebook estará violando o GDPR e provavelmente também a CCPA etc.

Web scraping para mim, mas não para você

Scraping é uma questão de acesso a dados

A mudança nos instrumentos jurídicos para impedir scraping

Os resultados complexos de hiQ Labs v. LinkedIn

O direito contratual funciona, na prática, como direito de propriedade sobre dados

A postura ambígua das empresas sobre scraping

Os tribunais e o próximo teste

Leituras relacionadas

1 comentários

Comentários do Hacker News