GPTBot - o crawler da web da OpenAI

Texto de apresentação do GPTBot, o crawler da web desenvolvido pela OpenAI
Pode ser identificado pelo token de user-agent "GPTBot" e pela string completa de user-agent
As páginas da web rastreadas pelo GPTBot podem ser usadas para melhorar futuros modelos de IA
O crawler filtra fontes que exigem acesso por paywall, locais conhecidos por coletar informações de identificação pessoal (PII) e textos que violam as políticas da OpenAI
Permitir que o GPTBot acesse um site pode ajudar a melhorar a precisão, as capacidades gerais e a segurança dos modelos de IA
É possível bloquear o acesso do GPTBot ao site adicionando-o ao robots.txt do site, e também permitir o acesso do GPTBot a diretórios específicos do site
A faixa de IP egress usada pelo crawler está especificada separadamente no site da OpenAI

3 comentários

ragingwind 2023-08-08

Nossa, vai rolar experimento demais, né

xguru 2023-08-08

Será que administradores de sites com paywall vão acabar liberando o acesso para bots para incluir seu conteúdo nos modelos do ChatGPT?
Atualmente, até sites que exigem acesso pago às vezes deixam o bot do Google entrar para fazer cache.
Claro, também existem robôs que exploram isso ao contrário para fazer crawling rs

GN⁺ 2023-08-08

Comentários do Hacker News

Em discussão, os potenciais impactos do crawler da OpenAI, o GPTBot, sobre websites
Alguns usuários sugerem testar o retorno de conteúdo diferente para o GPTBot, para verificar como isso afeta o treinamento de modelos de IA
Preocupação com o GPTBot ignorando o cabeçalho de resposta "429 Too Many Requests", o que pode causar problemas para pequenos projetos com APIs que têm limitação de requisições
Usuários questionam os benefícios de permitir o acesso do GPTBot aos seus sites, já que seu conteúdo pode ser usado para melhorar modelos de IA sem fornecer benefício direto nem crédito aos criadores originais
Preocupações sobre a possibilidade de plágio, já que o GPTBot pode reformular conteúdo sem citar a fonte, tornando difícil provar a origem original do material
Alguns usuários estão considerando bloquear o GPTBot por causa dessas preocupações, mas se perguntam se isso pode dar vantagem competitiva a bots que não respeitam essas restrições
A discussão também menciona a questão mais ampla da violação de direitos autorais por web crawling; alguns usuários argumentam que modelos de aprendizado de máquina que não citam fontes devem ser considerados hostis e potencialmente infratores de direitos autorais

GPTBot - o crawler da web da OpenAI

Leituras relacionadas

3 comentários

Comentários do Hacker News