2 pontos por GN⁺ 2024-07-31 | 1 comentários | Compartilhar no WhatsApp

Introdução ao en.osm.town

  • O en.osm.town faz parte de uma rede social descentralizada baseada em Mastodon
  • É uma comunidade independente da comunidade OpenStreetMap e recebe financiamento da OpenStreetMap Foundation
  • Estatísticas do servidor: 257 usuários ativos

Principais pontos

  • Grant Slater propõe às empresas de IA que, em vez de fazer scraping oculto dos dados do OpenStreetMap, façam uma doação de US$ 10.000
  • Com uma doação de US$ 50.000, também seria possível oferecer atualizações em streaming em tempo real
  • Bart Louwers menciona que o scraping do OpenStreetMap é algo comum
  • wikiyu argumenta que usar os dados do planet.osm é mais eficiente
  • Josua critica o fato de a IA estar sendo treinada de maneira ineficiente
  • Juan Luis menciona que um problema semelhante de abuso por crawlers de IA também está acontecendo no Read the Docs
  • Simon Poole afirma que uma abordagem razoável pode prejudicar a imagem das empresas de IA
  • Michał levanta a possibilidade de que contratados de determinados países tenham recebido a tarefa de baixar dados do OSM
  • leadingzero critica o fato de que os requisitos de licença do OSM não estão sendo devidamente aplicados
  • Grant Slater menciona que criou um repositório no GitHub para rastrear atributos de tiles
  • Guillaume Rischard menciona que recentemente resolveu uma questão jurídica na Alemanha
  • Adderall girl grindset (Jes) propõe bloquear crawlers de IA

Resumo do GN⁺

  • Este texto trata do problema das empresas de IA que fazem scraping de dados do OpenStreetMap
  • Sugere formas mais eficientes de usar os dados do OpenStreetMap e uma abordagem de acesso aos dados por meio de doações
  • Discute o problema do abuso por crawlers de IA e possíveis formas de resposta
  • Projetos com funcionalidades semelhantes incluem Google Maps e Bing Maps

1 comentários

 
GN⁺ 2024-07-31
Opinião do Hacker News
  • Crawlers de IA ignoram robots.txt, não usam a API pública e não respeitam carga de pico, aumentando os custos de infraestrutura
  • O presidente da OpenStreetMap Foundation afirma que é possível baixar dados do OpenStreetMap em grande volume gratuitamente e recomenda usar isso em vez de scraping
    • O scraping impõe alta carga sobre recursos doados, e bloquear IPs que fazem scraping também exige tempo e esforço
    • Respeitar recursos e tempo ajuda a manter o serviço gratuito
  • É possível configurar uma instância do OpenStreetMap em 10 minutos, e isso pode ser feito com um simples comando docker run
    • A indexação leva tempo, mas não demora tanto em comparação com os recursos envolvidos
  • Havia necessidade de dados do OSM, mas não se compreendia corretamente como obtê-los
    • Era preciso baixar um arquivo grande de 100 GB e usar formatos e bibliotecas pouco claros
    • As informações estão dispersas, e a API HTTP é limitada ou sujeita a rate limiting
    • No fim, foi usado um projeto gratuito que fornece dados do OSM já pré-convertidos
  • O autor do post, após limitar e bloquear crawlers que faziam scraping agressivo do site e da API de mapas, reagiu com sarcasmo
    • Os dados do OpenStreetMap podem ser baixados gratuitamente e são oferecidos via AWS S3 e torrent
    • Para quem está começando, é melhor usar dados extraídos de uma região pequena
  • Colocar o planet.osm em torrent e permitir scraping apenas via torrent poderia distribuir a carga de rede
  • É ineficiente que crawlers de IA solicitem todas as revisões de todos os arquivos por meio da interface web
    • Isso desperdiça energia e recursos
  • Foi sugerido criar um honeypot para empresas de IA, gerando conteúdo sem sentido em loop infinito
  • É lamentável que projetos como o CommonCrawl não tenham eliminado a necessidade de várias empresas fazerem scraping de servidores
    • Isso acontece porque elas querem visitar com mais frequência ou usam muito dinheiro de VC para impressionar investidores
  • Há quem questione o que exatamente as empresas de IA estão fazendo scraping no OSM