1 pontos por GN⁺ 2025-09-02 | 1 comentários | Compartilhar no WhatsApp
  • O Cloudflare Radar ganhou uma página dedicada de AI Insights, permitindo ver em uma única tela o tráfego de bots/crawlers de IA, a popularidade de serviços de IA generativa com base em DNS, diretivas de robots.txt e tendências de uso de modelos no Workers AI
  • O gráfico de tráfego de bots e crawlers de IA fornece dados resumidos e séries temporais dos principais UAs com base na lista do ai.robots.txt, além de permitir análises detalhadas via Radar API e Data Explorer
  • O ranking de serviços de IA generativa usando dados de DNS do 1.1.1.1 mostra a evolução diária das mudanças e permite confirmar variações bruscas em serviços emergentes, como a rápida ascensão do DeepSeek no fim de janeiro de 2025 (estreia em 26/1 → 3º lugar em 29/1)
  • A análise de robots.txt agrega diretivas Allow/Disallow relacionadas a IA nos 10.000 principais domínios, visualizando tendências de bloqueio por categoria e destacando uma forte tendência de não permissão em notícias e mídia
  • A popularidade de modelos/tarefas no Workers AI usa dados compartilhados para mostrar tendências de uso por modelo e tarefa e comparações por período, ajudando a entender o fluxo de um ecossistema de modelos em rápida evolução

Visão geral

  • A Cloudflare criou a página AI Insights no Radar para oferecer de forma integrada tendências de tráfego, popularidade de serviços, controle de acesso e uso de modelos relacionados a IA
  • As fontes de dados incluem tráfego DNS do 1.1.1.1, lista de user agents do ai.robots.txt, dados compartilhados do Workers AI e integração com a API/Data Explorer do Radar

Tendências de tráfego de bots e crawlers de IA

  • A atividade dos 5 principais bots/crawlers de IA é visualizada por período para permitir entender intensidade de requisições e periodicidade
    • O critério de coleta de user agents segue a lista do ai.robots.txt, atualizada continuamente
    • Há suporte a acesso programático por meio de endpoints de API de séries temporais/resumo
  • No Data Explorer, é possível explorar tendências amplas do conjunto completo de bots de IA
    • Operadores podem verificar tráfego anômalo por região, período e UA
    • Também pode ser usado para análise de correlação com políticas internas de resposta

Popularidade dos serviços de IA generativa

  • Com base no volume de requisições DNS do 1.1.1.1, o sistema fornece diariamente o ranking relativo de serviços públicos de IA generativa
    • Nas revisões anuais de 2023/2024, o ChatGPT manteve o 1º lugar
    • No fim de janeiro de 2025, foi observada alta volatilidade nas posições 6 a 10
  • O DeepSeek apareceu pela primeira vez em 26 de janeiro e subiu rapidamente ao 3º lugar em 29 de janeiro
    • Isso fornece dados de ranking em alta frequência úteis para detectar serviços emergentes de rápido crescimento
    • Na Radar API, é possível acessar a série temporal bruta com o parâmetro serviceCategory=Generative%20AI

Análise de arquivos robots.txt

  • Os 10.000 principais domínios são coletados periodicamente para agregar diretivas Allow/Disallow relacionadas a IA
    • O gráfico resume permissão/bloqueio total e permissão/bloqueio parcial por user agent
    • A categoria de notícias e mídia mostra uma forte tendência de bloqueio para UAs de IA
  • Considerando as diretivas Allow, houve uma grande redução no número de sites com permissão explícita
    • Atenção: na ausência de UA especificado e de wildcard, o comportamento padrão é de permissão total
    • A Radar API e o Data Explorer oferecem análise com filtros por bot e por diretiva

Popularidade de modelos e tarefas no Workers AI

  • As tendências de uso de modelos e tarefas (Task) com suporte público no Workers AI são visualizadas com base em dados compartilhados
    • Popularidade de modelos e popularidade de tarefas são oferecidas separadamente em séries temporais e resumos
    • No Data Explorer, o recurso de comparação por período (timeCompare) permite analisar aumento ou queda em relação ao mês anterior
  • Exemplos de modelos incluem geração de texto, geração de imagem, reconhecimento de fala e classificação de imagem, cobrindo diversas tarefas
    • Quando novos modelos poderosos são lançados, isso pode ser usado para resposta proativa graças à visibilidade antecipada

Conclusão e implicações

  • O ecossistema de IA mostra volatilidade acentuada, com vários casos de serviços novos que crescem rapidamente em pouco tempo
    • Com a expansão dos serviços generativos, temas como raspagem de conteúdo, direitos autorais e controle de acesso seguem em tensão constante
  • A página AI Insights oferece de forma integrada tráfego, popularidade, controle de acesso e uso de modelos, sendo útil para observadores do setor e profissionais acompanharem tendências do momento
    • Operadores podem construir sistemas de monitoramento e relatórios automatizados via Radar API e Data Explorer
    • Também é possível refinar a resposta a bots de IA conectando a estratégia de diretivas robots.txt com políticas de CDN/segurança

1 comentários

 
GN⁺ 2025-09-02
Comentários do Hacker News
  • A OpenAI confirmou que seu status de autenticação via WebBotAuth está como "In Progress"; parece que a Cloudflare quer se posicionar como porteira dos "bons bots". O simples fato de existir um estado "In Progress" já é significativo: para outras empresas é simplesmente "No", mas para a OpenAI é algo como "ainda não, mas eles já avisaram a CF dos planos".
    • Parece que a Cloudflare quer monetizar em duas frentes: cobra dos clientes de CDN e agora também quer cobrar pelo direito de acessar o conteúdo desses mesmos clientes. É satisfatório ver a OpenAI levando isso, mas acho que não vai parar aí. Fico em dúvida se o Kagi e outros buscadores vão conseguir continuar baratos e úteis, e como serviços como o Internet Archive vão operar nesse cenário.
    • Não entendo por que tanta gente acha isso tão surpreendente; a Cloudflare está bloqueando tráfego indesejado para sites, que sempre foi o modelo de negócio dela.
    • Na verdade, já fazia muito tempo que precisávamos de uma forma mais razoável de autenticar bots, e isso não se limita a bots de IA.
    • A Cloudflare agora entrou de vez para o grupo dos gatekeepers da internet. Por enquanto, parece que só a OpenAI está tentando conseguir essa autenticação, e a Amazon aparentemente seguiu em parte. Espero que outras empresas resistam a esse tipo de exigência.
    • Eastdakota (CEO da Cloudflare) disse algo como: "Hoje em dia todo mundo está correndo para entrar no jogo da próxima era; posso arrumar um lugar para você de novo". Sam (provavelmente da OpenAI) respondeu: "Nem sabia que tinha perdido meu lugar". E Eastdakota retrucou em tom de "não foi totalmente excluído, mas já virou motivo de arrependimento".
  • São dados realmente impressionantes. No gráfico de "Generative AI services popularity", não surpreende que o ChatGPT esteja em 1º lugar, mas é curioso ver o Character.AI em 2º, à frente de Anthropic, Perplexity e xAI. Acho que esses dados podem ser fortemente influenciados pela estratégia de cache DNS de cada serviço. Outro gráfico interessante é o de "Workers AI model popularity": o llama-3-8b-instruct lidera desde abril com 30% a 40% de participação, e é raro ver um LLM pequeno tão popular assim. Eu esperaria ver mais uso do m2m100-1.2b da Meta ou do Gemma 3 270M da Alphabet. Provavelmente isso acontece porque as pessoas usam o modelo mais forte que dá para subir em um CF worker. Para uma análise mais variada de popularidade, veja meu post "LLM Assistant Census"
    Ver ranking de serviços de IA generativa
    Ver ranking de modelos do Workers AI
    LLM Assistant Census
    • Fico me perguntando por que cache DNS distorceria os resultados. Quando a Cloudflare faz proxy de um site, ela pode ver todas as requisições HTTP, então não parece provável que tenha agregado tudo só com base em consultas DNS. Vi menções a DNS em outros comentários, então talvez esteja faltando alguma explicação sobre como essas estatísticas foram calculadas.
    • O Character.AI é extremamente popular entre usuários mais jovens, então não é tão surpreendente vê-lo em 2º lugar.
  • Recentemente tentei descobrir até que profundidade cada empresa rastreia a web, e o bot da OpenAI foi o mais minucioso: seguiu 405 links.
    Ver dados de crawling em detalhes
    • Estatística interessante; no meu honeypot, o GPTBot chegou a uma profundidade máxima de 92 níveis. Talvez meu site seja menos interessante.
  • A Cloudflare decide por conta própria como definir um AI Bot na classificação de bots. Por exemplo, o CCBot do Common Crawl é usado para vários fins e já foi citado em mais de 10 mil artigos acadêmicos, mas a Cloudflare simplesmente o trata como "AI Bot". E imagino que a maioria dos donos de sites não saiba bem quais bots entram nessa lista nem por que foram escolhidos.
  • É triste ver no "Top Browser & user agents" que o Firerox tem só 3,8% de participação.
    Estatísticas de navegadores da Cloudflare
    • Pelo que vejo, o Firefox é o único dos cinco principais navegadores que não vem pré-instalado por padrão. A maioria das pessoas não se incomoda o suficiente para sair do padrão, então mais de 90% nunca chegam a procurar uma alternativa como o Firefox.
    • Na fase inicial, o Firefox era um navegador melhor e ganhou participação porque oferecia recursos realmente úteis que os navegadores existentes não tinham. O Firefox de hoje não passa de uma imitação do Chrome sem diferenciação. Um usuário comum, que nem conhece extensões, não tem motivo para escolher o Firefox. Se ele tivesse recursos realmente úteis, como bloqueio nativo de anúncios e incômodos, talvez pudesse reconquistar mercado, mas não parece haver intenção real de fazer isso.
    • Não entendo como alguém usa voluntariamente um navegador feito por uma empresa de publicidade. A maioria dos usuários do Chrome provavelmente nem sabe disso, mas até entre quem lê este tipo de discussão há muitos que conhecem a natureza do Google e do Chrome e mesmo assim usam.
    • Fico curioso para saber até que ponto o Firefox está sendo automaticamente classificado como bot nas estatísticas da Cloudflare e, por isso, ficando fora da participação mostrada.
    • O Firefox talvez nem esteja fornecendo corretamente as informações de user agent, talvez nem por padrão, então a participação pode aparecer menor do que realmente é.
  • Os dados de ranking de IA baseados em requisições DNS são interessantes. Em janelas de 4 semanas, o Character.AI fica consistentemente em 2º nos fins de semana, enquanto o Claude fica em 3º; nos dias úteis, os dois trocam de posição. Mas o gráfico mostra essa troca entre domingo e segunda, o que talvez venha da diferença entre o fuso horário dos EUA e UTC.
  • Esses dados têm enorme valor tanto para empresas de IA quanto para publishers. A Cloudflare passa a ter uma visibilidade sem precedentes sobre quem rastreia o quê, quando e em que volume. Acho bem possível que isso vire em breve um produto premium pago, como autenticação prioritária de bots e análises detalhadas de crawling.
    • Isso vai ser uma alavanca enorme para o crescimento da Cloudflare. A ideia parece ser extrair o máximo possível de receita de grandes players como a OpenAI.
  • Se alguém fizer uma busca via API da Anthropic e depois mandar o tráfego do usuário para o site de destino usando o link direto, a Cloudflare não consegue associar essa busca à Anthropic. Então a proporção entre crawling e tráfego de referência pode ficar diferente da realidade.
  • Imagino que essas estatísticas provavelmente não incluam crawlers maliciosos que usam proxies residenciais e afins para esconder a própria identidade.
  • Torço sinceramente para que ninguém se submeta à autenticação WebBotAuth da Cloudflare e que essa tentativa fracasse.