12 pontos por GN⁺ 2023-08-08 | 3 comentários | Compartilhar no WhatsApp
  • Texto de apresentação do GPTBot, o crawler da web desenvolvido pela OpenAI
  • Pode ser identificado pelo token de user-agent "GPTBot" e pela string completa de user-agent
  • As páginas da web rastreadas pelo GPTBot podem ser usadas para melhorar futuros modelos de IA
  • O crawler filtra fontes que exigem acesso por paywall, locais conhecidos por coletar informações de identificação pessoal (PII) e textos que violam as políticas da OpenAI
  • Permitir que o GPTBot acesse um site pode ajudar a melhorar a precisão, as capacidades gerais e a segurança dos modelos de IA
  • É possível bloquear o acesso do GPTBot ao site adicionando-o ao robots.txt do site, e também permitir o acesso do GPTBot a diretórios específicos do site
  • A faixa de IP egress usada pelo crawler está especificada separadamente no site da OpenAI

3 comentários

 
ragingwind 2023-08-08

Nossa, vai rolar experimento demais, né

 
xguru 2023-08-08

Será que administradores de sites com paywall vão acabar liberando o acesso para bots para incluir seu conteúdo nos modelos do ChatGPT?
Atualmente, até sites que exigem acesso pago às vezes deixam o bot do Google entrar para fazer cache.
Claro, também existem robôs que exploram isso ao contrário para fazer crawling rs

 
GN⁺ 2023-08-08
Comentários do Hacker News
  • Em discussão, os potenciais impactos do crawler da OpenAI, o GPTBot, sobre websites
  • Alguns usuários sugerem testar o retorno de conteúdo diferente para o GPTBot, para verificar como isso afeta o treinamento de modelos de IA
  • Preocupação com o GPTBot ignorando o cabeçalho de resposta "429 Too Many Requests", o que pode causar problemas para pequenos projetos com APIs que têm limitação de requisições
  • Usuários questionam os benefícios de permitir o acesso do GPTBot aos seus sites, já que seu conteúdo pode ser usado para melhorar modelos de IA sem fornecer benefício direto nem crédito aos criadores originais
  • Preocupações sobre a possibilidade de plágio, já que o GPTBot pode reformular conteúdo sem citar a fonte, tornando difícil provar a origem original do material
  • Alguns usuários estão considerando bloquear o GPTBot por causa dessas preocupações, mas se perguntam se isso pode dar vantagem competitiva a bots que não respeitam essas restrições
  • A discussão também menciona a questão mais ampla da violação de direitos autorais por web crawling; alguns usuários argumentam que modelos de aprendizado de máquina que não citam fontes devem ser considerados hostis e potencialmente infratores de direitos autorais