1 pontos por GN⁺ 2023-09-27 | 1 comentários | Compartilhar no WhatsApp
  • Artigo sobre as imprecisões dos n-grams do Google Ngram Viewer
  • O autor aponta que a frequência de palavras comuns em inglês mostrada pelo Ngram não reflete com precisão o uso real no século XX
  • O autor e Talia Felix usaram o Google Books em pesquisas, mas descobriram que se trata de um banco de dados mal montado, com muitos erros ocultos
  • Explicação de um dos erros herdados pelo Ngram a partir do Google Books, que faz muitas palavras em inglês parecerem ter diminuído de uso ao longo do século XX e depois ressurgido nos anos 1980
  • Esse erro ocorre porque o corpus do Google Books é majoritariamente acadêmico, e revistas científicas e periódicos acadêmicos modernos tendem a repetir um conjunto limitado de palavras
  • O uso excessivo de certas palavras na escrita acadêmica reduz artificialmente a frequência de outras, criando a "queda" no meio do século XX em quase todas as palavras no Ngram
  • Outro erro é que o Google Books não reconhece equivalência entre grafias variantes e formas no plural
  • O autor menciona que muitos arquivos do Google Books estão datados incorretamente, prejudicando ainda mais a precisão dos dados
  • Apesar dessas imprecisões, os Ngrams continuam sendo usados porque, online, as imagens vencem e as palavras perdem
  • O autor recomenda que os leitores vejam os Ngrams como algo decorativo e curioso, não como uma representação precisa do uso das palavras
  • O autor conclui que, mesmo que o mundo prefira a realidade do Ngram, os leitores podem ser mais inteligentes do que isso.

1 comentários

 
GN⁺ 2023-09-27
Comentários do Hacker News
  • O título do artigo, "Quem anseia por certeza anseia por mentira", provocou uma discussão sobre o desejo por certeza em cronogramas de projetos.
  • O artigo critica o uso de ngrams em algoritmos modernos, alegando que eles são produto de uma tecnologia pouco confiável e ignorante.
  • A crítica aos ngrams é vista como um alerta em uma era cada vez mais dominada pela IA generativa, que é essencialmente um preditor de ngram.
  • Alguns comentários questionam a validade das afirmações dos autores sobre estatísticas de ngram, apontando falta de evidências e interpretações enganosas dos gráficos.
  • O problema fundamental da análise de dados é destacado, enfatizando que a análise é tão boa quanto os dados e que é difícil avaliar a qualidade desses dados.
  • Alguns comentários criticam o título do artigo e a tendência de clickbait em publicações científicas.
  • O uso do Google Ngram é discutido, e alguns argumentam que o problema não é a ferramenta em si, mas sim o fato de suas estatísticas estarem fora de contexto.
  • O artigo é criticado por não incluir o zero no eixo vertical do gráfico, o que pode fazer pequenas variações parecerem grandes.
  • Há uma discussão sobre a impossibilidade de construir uma imagem representativa do passado devido à perda de dados inerente.