- Texto de apresentação do GPTBot, o crawler da web desenvolvido pela OpenAI
- Pode ser identificado pelo token de user-agent "GPTBot" e pela string completa de user-agent
- As páginas da web rastreadas pelo GPTBot podem ser usadas para melhorar futuros modelos de IA
- O crawler filtra fontes que exigem acesso por paywall, locais conhecidos por coletar informações de identificação pessoal (PII) e textos que violam as políticas da OpenAI
- Permitir que o GPTBot acesse um site pode ajudar a melhorar a precisão, as capacidades gerais e a segurança dos modelos de IA
- É possível bloquear o acesso do GPTBot ao site adicionando-o ao
robots.txt do site, e também permitir o acesso do GPTBot a diretórios específicos do site
- A faixa de IP egress usada pelo crawler está especificada separadamente no site da OpenAI
3 comentários
Nossa, vai rolar experimento demais, né
Será que administradores de sites com paywall vão acabar liberando o acesso para bots para incluir seu conteúdo nos modelos do ChatGPT?
Atualmente, até sites que exigem acesso pago às vezes deixam o bot do Google entrar para fazer cache.
Claro, também existem robôs que exploram isso ao contrário para fazer crawling rs
Comentários do Hacker News