1 pontos por GN⁺ 2023-12-23 | 1 comentários | Compartilhar no WhatsApp

Não é possível resumir o conteúdo desta solicitação. O conteúdo fornecido do artigo é a mensagem de erro "403 Forbiddennginx", que indica não o conteúdo real do artigo, mas um código de status HTTP que sinaliza falta de permissão de acesso. Isso geralmente ocorre quando o servidor web entendeu a solicitação, mas não tem autorização para executá-la.

Opinião do GN⁺

  • O erro "403 Forbidden" é um problema familiar para desenvolvedores web e administradores de sistemas, podendo ocorrer devido a configurações de permissão ou erros na configuração do servidor.
  • Essa mensagem de erro significa que o servidor recusou o acesso quando o usuário tentou acessar uma parte específica do site.
  • Esses erros estão intimamente ligados à segurança na web e são uma função importante para impedir que usuários acessem informações sensíveis sem as permissões adequadas.

1 comentários

 
GN⁺ 2023-12-23
Comentários do Hacker News
    • Este é um jeito muito inteligente de fazer amostragem, e tiro o chapéu para os autores. Quando eu trabalhava no Pew, tentei mapear o YouTube com caminhadas aleatórias pela API, por meio do endpoint de "vídeos relacionados", e depois de um ano parecia que havíamos chegado à saturação. Mas o tamanho descrito aqui sugere que existe uma longa cauda que passa despercebida. Logo depois de publicarmos nossa pesquisa, o Google começou a restringir a API quase imediatamente, mas fico feliz em ver que as pessoas ainda continuam esse tipo de pesquisa com scraping à moda antiga. Nossa análise foi feita no nível de canais e focada apenas em canais populares, mas é interessante que alguns números do TubeStats sejam bem próximos do que encontramos (por exemplo, a distribuição por idiomas).*
    • Elogio ao método inteligente de amostragem e compartilhamento de uma experiência de pesquisa semelhante no Pew
    • Reação positiva ao fato de a pesquisa via scraping continuar mesmo após o Google limitar o acesso à API
    • Comentário sobre semelhanças entre sua própria pesquisa e os dados do TubeStats
    • Isso é interessante como um método de ataque mitigado ao problema do tanque alemão. A solução ideal seria aumentar o espaço de endereços para impedir que uma amostra aleatória colete os dados necessários para chegar a conclusões estatisticamente significativas. Talvez haja outras boas soluções, mas amostras realmente aleatórias limitariam essa direção.*
    • Referência ao problema do tanque alemão junto com a proposta de expandir o espaço de endereços para dificultar a coleta de dados
    • Recomendo conferir o conjunto de dados de "dislikes do YouTube". Ele foi criado como um esforço de arquivamento para coletar informações antes de a função de dislike ser removida. Com ele, dá para encontrar os vídeos mais controversos, os principais vídeos descritos em um idioma específico etc.*
    • Informação sobre possibilidades de análise usando o conjunto de dados de dislikes do YouTube
    • Tentei descobrir quanto dado o YouTube tem, mas não encontrei esse número. Assumindo duração média de vídeo de 500 segundos, bitrate de 400 KB/s e 1,3 bilhão de vídeos, calculei 2,7 exabytes. Isso é uma estimativa abaixo do necessário para armazenamento, considerando que o YouTube guarda vídeos populares em vários data centers e em formatos VP9 e AV1. É possível que o YouTube comprima vídeos impopulares ou faça transcodificação sob demanda a partir de outros formatos, o que pode aumentar a estimativa, mas não acho que seja o caso.*
    • Estimativa da quantidade de dados do YouTube e especulações sobre a forma de armazenamento
    • O Google costumava perguntar sobre os problemas de escala do YouTube para algumas vagas. Muitas vezes isso acabava em perguntas de complexidade Big-O sobre sincronizar dados de logs em uma infraestrutura distribuída em crescimento. O resultado era uma função Big-O(f(n)) complexa demais para quase conseguir explicar. Era divertido.*
    • Comentário sobre problemas de escalabilidade do YouTube com base em experiência em entrevistas no Google
    • O resultado deste artigo é o site complementar a seguir: TubeStats.org*
    • Link para o site relacionado ao artigo
    • Grande demais. Ontem à noite recebi uma notificação para atualizar o app do YouTube no meu celular. O problema é que essa é a última versão que roda no meu aparelho. Pelo menos a web ainda funciona.*
    • Compartilhamento de experiência pessoal sobre o tamanho do app do YouTube e problemas de atualização
    • Esse conjunto de dados é divertido. O artigo passa uma impressão um pouco errada sobre estatísticas de canais: a menos que você reajuste a contagem de inscritos para corrigir a tendência da amostragem, a probabilidade de um canal aparecer é proporcional ao número de vídeos públicos dele, então seria preciso ponderar o número de vídeos por canal com um peso de ~1/#.*
    • Explicação sobre possível interpretação equivocada das estatísticas de canais e sobre o método de amostragem
    • A função de amostragem supõe que todos os "códigos de região" contêm a mesma quantidade de números disponíveis? Em alguns sites grandes (por exemplo, Twitter etc.), os shards que guardam os dados mais requisitados podem ser bem menos densos. Por exemplo, o código de região onde está Justin Bieber teria menos números. Isso pode distorcer bastante os resultados.*
    • Questionamento sobre o método de amostragem e observação sobre como diferenças de densidade entre shards de dados específicos podem afetar os resultados
    • Expressão de admiração por um site específico