7 pontos por GN⁺ 2024-09-24 | 2 comentários | Compartilhar no WhatsApp
  • A Cloudflare anunciou que pretende lançar no próximo ano um marketplace em que proprietários de sites poderão vender acesso de scraping ao conteúdo de seus sites para provedores de modelos de IA
  • Esse marketplace é a etapa final de um plano maior do CEO da Cloudflare, Matthew Prince, para permitir que publishers controlem melhor como e quando bots de IA fazem scraping de seus sites
  • Como primeiro passo, a Cloudflare lançou o AI Audit, uma ferramenta gratuita de observability
    • Proprietários de sites recebem um dashboard com análises sobre a frequência com que modelos de IA fazem scraping do site
    • Com o AI Audit, proprietários de sites podem bloquear bots de IA ou permitir scrapers específicos
    • A demonstração do AI Audit permite que proprietários de sites vejam de onde vem cada scraper, oferecendo uma janela opcional para verificar com que frequência provedores de modelos de IA como OpenAI, Meta e Amazon visitam o site
  • Resolvendo um problema da indústria de IA
    • Provedores de modelos de IA fazem scraping de milhares de pequenos sites e usam isso como informação para alimentar LLMs
    • A maioria dos sites não recebe nenhuma compensação, o que pode quebrar o modelo de negócios de muitos deles
    • A Cloudflare lançou um botão que permite aos proprietários de sites bloquear bots de IA
  • Atendendo às demandas dos clientes
    • Os clientes da Cloudflare pediam ferramentas para escolher quais modelos de IA podem acessar seus sites
    • As novas ferramentas da Cloudflare permitem bloquear alguns crawlers de IA enquanto outros são autorizados
  • Objetivo do marketplace
    • O marketplace da Cloudflare permitirá que pequenos publishers negociem com provedores de modelos de IA
    • Os sites poderão definir uma taxa de scraping ou solicitar créditos dos laboratórios de IA
  • Impacto no ecossistema de IA
    • A situação atual, em que algumas empresas de IA não pagam nada pelo conteúdo, não é sustentável
    • O CEO da Cloudflare acredita que esse marketplace será, no fim das contas, positivo para o ecossistema de IA

Resumo do GN⁺

  • A Cloudflare anunciou planos para lançar um marketplace em que proprietários de sites poderão vender acesso de scraping ao conteúdo para provedores de modelos de IA
  • Com a ferramenta AI Audit, proprietários de sites poderão analisar com que frequência modelos de IA fazem scraping de seus sites
  • O marketplace permitirá que pequenos publishers negociem com provedores de modelos de IA, possibilitando receber compensação pelo conteúdo
  • Isso pode contribuir para aumentar a sustentabilidade do ecossistema de IA

2 comentários

 
yangeok 2024-10-01

A proposta é boa.

 
GN⁺ 2024-09-24
Opiniões no Hacker News
  • O Common Crawl está incluído na lista de "Providers" junto com OpenAI e Anthropic

    • O Common Crawl é usado para vários propósitos além do treinamento de IA
    • É uma das principais fontes de conteúdo do Wayback Machine
    • O objetivo do projeto Common Crawl é que, em vez de várias empresas operarem seus próprios crawlers individualmente, o Common Crawl colete os dados e os forneça em um formato padronizado
    • Se a Cloudflare restringir o acesso ao conteúdo, isso pode ter um grande impacto
    • Pode chegar um mundo em que a maioria dos sites use produtos de segurança para restringir o acesso
  • OpenFoodFacts, OpenStreetMap e Wikipedia estão sofrendo ataques DDoS

    • Mesmo sendo possível baixar os dados gratuitamente, bots raspam tudo
    • Isso gera tráfego desnecessário e aumenta os custos
    • O problema não é de direitos autorais, mas da ineficiência dos bots e da falta de preocupação dos operadores
    • É preciso uma solução
  • Impedir crawling pode ser um esforço inútil

    • Esse recurso pode fortalecer ainda mais os grandes players que já coletaram muitos dados
    • Falsos positivos e captchas excessivos podem afetar os usuários
  • A Cloudflare oferece um serviço de proteção contra abuso de uma nova forma

    • A Cloudflare coopera com abusadores para formar um "marketplace"
    • Se você não usar os serviços da Cloudflare, o abuso continuará
    • Isso pode ser semelhante a cobrar por proteção
  • Dúvidas sobre o futuro da World Wide Web

    • Parecia que duraria para sempre, mas um dia pode desaparecer como o IRC
    • A era de ouro já passou, e a "IA" pode ser o começo do fim
  • Mais detalhes podem ser vistos no blog da Cloudflare

    • A demo do AI Audit permite que proprietários de sites vejam como modelos de IA raspam seus sites
    • É possível ver quantas vezes scrapers da OpenAI, Meta, Amazon e outras visitaram o site
  • Exemplo do Bingeclock usando o AI Audit

    • Mudanças interessantes nas 48 horas após o anúncio da Cloudflare
    • O programa de pagamento é interessante, mas a queda no tráfego pode tornar o site ineficiente
    • É muito provável que scrapers de IA façam apenas o pagamento mínimo
  • Próximo passo: gerar conteúdo com IA generativa e receber pagamento quando a Cloudflare escaneá-lo

  • Raspar repetidamente o mesmo site é um enorme desperdício

    • Se a Cloudflare puder gerenciar mudanças e atualizações, muitos recursos poderão ser economizados
    • O site informa diretamente à Cloudflare as mudanças, e a Cloudflare as repassa para a IA
    • A IA compra as mudanças, e a Cloudflare paga ao site e fica com a margem