Qualquer pessoa com contato interno na OpenAI é convidada a pedir solução para problema com crawler

(mailman.nanog.org)

2 pontos por GN⁺ 2024-04-12 | 1 comentários | Compartilhar no WhatsApp

Problema de rastreamento de sites pelo GPTBot da OpenAI

O autor relata que o GPTBot da OpenAI vem acessando seu site, web.sp.am, e rastreando páginas em excesso
- Ele fez cerca de 3 milhões de requisições de páginas por dia, das quais 1,8 milhão eram requisições a robots.txt
- O site do autor tem estrutura de Content Farm, com 6,859 bilhões de sites, cada um com 1 página
- Todas as páginas parecem quase idênticas e usam o mesmo IP e o mesmo certificado SSL curinga, então não deveria ser difícil para o crawler entender a situação
Há 1 ou 2 meses, o crawler da Amazon causou um problema parecido, mas foi possível entrar em contato e fazer o rastreamento parar
O autor está perguntando se existe alguém com quem seja possível entrar em contato na OpenAI
O autor brinca que parece que os dados do seu site estão sendo usados no treinamento do GPT-5

Opinião do GN⁺

Quando um crawler não interpreta corretamente o robots.txt e envia requisições excessivas, isso pode causar danos ao serviço da outra parte mesmo que não haja má intenção. A OpenAI também parece precisar corrigir rapidamente a lógica do crawler
Especialmente em locais que operam inúmeros domínios, como uma Content Farm, vale considerar medidas como filtragem baseada em IP para evitar rastrear cada site individualmente
Parece necessário haver processos e sistemas para monitorar o comportamento de bots de rastreamento, detectar sinais anormais e responder rapidamente
É preciso manter comunicação próxima com os administradores dos sites rastreados para minimizar danos. Em vez de focar apenas na coleta de dados, a perspectiva de coexistência é importante

1 comentários

GN⁺ 2024-04-12

Opiniões do Hacker News

Isso me lembra quando GPT-2/3/J encontrou https://reddit.com/r/counting. É um lugar onde usuários do Reddit contam infinitamente, aumentando os números um a um, e nomes de usuário como SolidGoldMagikarp aparentemente pareciam strings tão comuns na internet que, no processo de tokenização, acabaram sendo tratados como tokens independentes
https://www.alignmentforum.org/posts/8viQEp8KBg2QSW4Yc/solid...
https://www.lesswrong.com/posts/LAxAmooK4uDfWmbep/anomalous-...
O vocabulário não é infinito, e sabe-se que o vocabulário do GPT-3 tinha apenas 50.257 tokens. Fico curioso se talvez fosse mensurável a diferença entre o custo extra de energia causado por esse hobby de nicho do Reddit e a redução no número médio de tokens de entrada caso esse espaço tivesse sido atribuído a substrings mais comuns em textos reais
Seria engraçado se o subtítulo do site do OP, IECC ChurnWare 0.3, virasse um token do GPT-5
- Fico curioso sobre quanto das alucinações vem do conteúdo original, mais do que da natureza dos próprios grandes modelos de linguagem. Afinal, se alguém faz uma pergunta em um fórum da internet e eu não sei a resposta, eu não vou necessariamente escrever “não sei”
  Na prática, em contextos que não são conversas individuais, uma resposta como “não sei” geralmente não é útil. Em um grupo, o silêncio já indica esse fato quando você não sabe
- Durante a tokenização, os nomes de usuário viraram tokens, mas antes de treinar o modelo de fato esses textos foram removidos dos dados de treinamento, então o modelo não foi treinado com textos contendo esses tokens. Foi assim que surgiram tokens com glitch, sem ligação com nenhum significado
- O Computerphile também tem uma discussão sobre tokens com glitch
  https://www.youtube.com/watch?v=WO2X3oZEJOA
- Hoje em dia, o tamanho de vocabulário mais comum é 32k
Fico mais curioso sobre para que serve aquela fazenda de conteúdo. Parece sem sentido, mas deve haver algum incentivo econômico estranho. Há links de afiliados, mas fico pensando quanto isso poderia render
- Isso é um honeypot. O autor, https://en.wikipedia.org/wiki/John_R._Levine, mantém essa pequena fazenda para garantir que, quando uma nova operação de scraping em grande escala começar, ela inevitavelmente passe por ali e apareça nos logs
  Ele é uma figura conhecida no combate ao spam, com várias atividades há décadas. Inserir naturalmente um link para a landing page em uma mensagem da NANOG também é uma forma de fazer bots morderem a isca
- O nome John Levine, de iecc.com, me lembra a Invincible Electric Calculator Company dos tempos da Web 1.0. Ele era operador do grupo de notícias comp.compilers na Usenet e escreveu o primeiro compilador C para o IBM PC RT
  https://compilers.iecc.com/
- Parece mais um honeypot para bots. O objetivo é bem parecido
- Linkers & Loaders é mesmo um livro escrito por ele. Não verifiquei os outros livros
  Na página https://www.iecc.com/linker/, antes ele disponibilizava rascunhos do livro em vários formatos, mas quando isso apareceu em https://news.ycombinator.com/item?id=18424233, eu empacotei os arquivos para leitura offline e, depois disso, o texto mudou para “não oferecemos mais por causa da pirataria crônica”
  Perguntei por e-mail se estava tudo bem, mas recebi uma resposta pouco amigável dizendo que eu tinha pirateado os arquivos, então removi o link, e eles mudaram o texto. Eu não sou o autor do livro; eles são, então é direito deles. Ainda assim, sugeri que colocassem na página um aviso dizendo para não fazer isso, mas eles escolheram uma abordagem mais radical
- Foi feito só por diversão e agora está cumprindo muito bem seu papel. Nem tudo precisa ter um objetivo econômico, 100 trackers, anúncios e patrocínio de empresa
Só eu esperava que fosse sobre aranhas de verdade infestando a server farm da OpenAI e entrando nos racks de outras pessoas? Eu sabia que não seria isso, mas estava torcendo
- Eu esperava que fosse sobre um grande conjunto de palavras-chave gerando imagens de aranhas
O robots.txt não estava configurado corretamente. A parte que realmente bloqueava estava comentada
Tanto o Disallow: / para Amazonbot quanto para GPTBot estavam comentados, e o que se aplica atualmente é apenas o bloqueio de /archive para User-agent: *
- O conteúdo mudou entre aquela época e agora
Se seguirem o robots.txt, a OpenAI tem ao mesmo tempo um problema de bloqueio de bots e de coleta de dados: https://x.com/AznWeng/status/1777688628308681000
Entre os 100 mil sites mais acessados, 11% já bloqueiam o crawler da OpenAI, mais do que todos os concorrentes Google, FB, Anthropic e Perplexity somados
- Isso é um problema não só para treinamento, mas também para o usuário final. Muitas vezes pedi perguntas ou resumos sobre textos longos, mas ele dizia que não conseguia ler sozinho, então eu acabava tendo que copiar e colar o texto na janela do chat
  Considerando que robots.txt não é vinculante e que, em outros contextos, eles parecem bem pouco constrangidos em sugar dados públicos, é surpreendente que deixem isso se tornar um obstáculo à experiência do usuário
Acho que bastaria deixar rolar. Se é internet que ele quer, isso é a internet de verdade. Como ele não parece se importar muito com o fato de alguém levar milhões de páginas, é só deixar acontecer
- Há impacto de desempenho para outros usuários legítimos daquela web farm
- Alguns scrapers respeitam o robots.txt. A OpenAI não. O SP está apenas fazendo esse fato ser conhecido pelo mundo
- Dizem que nem o CTO sabe de onde vêm os dados
- Esse é justamente o ponto. A reclamação dele é que a OpenAI não respeita o robots.txt
No mundo da segurança de redes, isso é chamado de tarpit. Dá para atrasar ataques, varreduras e outras automações enviando dados muito lentamente ou provocando recursão infinita
No fim, isso desperdiça o tempo e a energia do atacante e pode nos dar tempo para reforçar nossas defesas
- Pelo conteúdo do e-mail, parece mais simplesmente um honeypot. Nem parece haver atraso quando o conteúdo é retornado
  Um tarpit é diferente, porque é projetado para desacelerar varreduras ou scraping e desperdiçar deliberadamente os recursos do outro lado. Há várias técnicas, mas a maioria limita exponencialmente as respostas ou a velocidade de resposta
Em 2011, aconteceu algo parecido quando o projeto picolisp publicou uma espécie de “ticker” de cadeia de Markov que gerava páginas na hora
https://picolisp.com/wiki/?ticker
É uma forma bem interessante de honeypot
No fim, empresas como a OpenAI acabarão treinando seus modelos quase só com conteúdo gerado por IA e, do ponto de vista de Q&A, esse conteúdo com bastante frequência é um pouco incorreto, então a qualidade das respostas de IAs treinadas com ele também vai piorar rapidamente
Hoje a maior parte do conteúdo da internet é escrita por humanos, mas daqui a 5 anos talvez não seja mais. Vejo isso como um dos grandes problemas que a área de IA precisa resolver logo. Como diz o velho ditado: entra lixo, sai lixo
- O ponto final do treinamento com textos da web sempre foi o ouroboros. Porque os incentivos da adtech levam à produção em massa de conteúdo de baixa qualidade para obter receitas minúsculas
  A ironia de toda essa situação é cruel
- Não haverá mais conteúdo como uma floresta primária a ser raspado, mas o conteúdo que os humanos querem ainda será o mais popular, divulgado, curado e editado. Mesmo que treinar com conteúdo orgânico se torne impossível, ainda será possível obter bom conteúdo
- Esse problema já foi resolvido. Basta ver como a Microsoft treinou o Phi. Ela gerou dados sintéticos baseados em livros didáticos usando modelos existentes e, assim, conseguiu criar um novo dataset baseado em “fatos” com qualidade muito superior à de algo como o Common Crawl
  Parece mais um problema de bootstrapping do que um ouroboros
- No futuro será multimodal, e o treinamento e a inferência serão feitos com feeds de redes de sensoriamento distribuídas. Isso inclui rádio, óptica, áudio, acelerômetros, vibração, sensores dentro de celulares e muitos outros
  A era dos transformers que lidam apenas com texto, na minha opinião, já passou
- Não entendo por que alguém acha que a OpenAI e companhia acabarão treinando quase tudo com conteúdo gerado por IA. É bem possível que haja mais conteúdo gerado por IA na internet do que conteúdo real, e talvez isso já tenha acontecido, mas não há motivo para achar que as empresas de IA não perceberão isso e não ajustarão seus métodos de treinamento
Acho que a OpenAI lê o robots.txt, mas indexa mesmo assim. Só deve deixar uma marca indicando que era conteúdo que não deveria ser indexado
- E provavelmente dá peso dobrado a esse conteúdo no treinamento

Qualquer pessoa com contato interno na OpenAI é convidada a pedir solução para problema com crawler

Problema de rastreamento de sites pelo GPTBot da OpenAI

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões do Hacker News