- Artigo sobre as imprecisões dos n-grams do Google Ngram Viewer
- O autor aponta que a frequência de palavras comuns em inglês mostrada pelo Ngram não reflete com precisão o uso real no século XX
- O autor e Talia Felix usaram o Google Books em pesquisas, mas descobriram que se trata de um banco de dados mal montado, com muitos erros ocultos
- Explicação de um dos erros herdados pelo Ngram a partir do Google Books, que faz muitas palavras em inglês parecerem ter diminuído de uso ao longo do século XX e depois ressurgido nos anos 1980
- Esse erro ocorre porque o corpus do Google Books é majoritariamente acadêmico, e revistas científicas e periódicos acadêmicos modernos tendem a repetir um conjunto limitado de palavras
- O uso excessivo de certas palavras na escrita acadêmica reduz artificialmente a frequência de outras, criando a "queda" no meio do século XX em quase todas as palavras no Ngram
- Outro erro é que o Google Books não reconhece equivalência entre grafias variantes e formas no plural
- O autor menciona que muitos arquivos do Google Books estão datados incorretamente, prejudicando ainda mais a precisão dos dados
- Apesar dessas imprecisões, os Ngrams continuam sendo usados porque, online, as imagens vencem e as palavras perdem
- O autor recomenda que os leitores vejam os Ngrams como algo decorativo e curioso, não como uma representação precisa do uso das palavras
- O autor conclui que, mesmo que o mundo prefira a realidade do Ngram, os leitores podem ser mais inteligentes do que isso.
1 comentários
Comentários do Hacker News