The General Index - índice de n-grams de um milhão de periódicos disponibilizado gratuitamente

xguru · 2021-10-28T09:04:01+09:00

O pesquisador Carl Malamud divulgou um índice de n-grams extraído com SpaCy de 107.233.728 periódicos, incluindo artigos pagos Como é um índice que inclui não o texto completo, mas apenas trechos de frases de 1 até 5 palavras, ele contorna restrições de direitos autorais Foi disponibilizado gratuitamente no Web Archive para uso em diversas áreas de pesquisa → Ex.) quantas vezes uma determinada substância química foi usada em artigos É composto por 3 tabelas → 350 bilhões de n-grams e IDs de periódicos → 19,7 bilhões de palavras-chave e IDs de periódicos → IDs de periódicos e metadados: título do artigo, autor, DOI (identificador único do artigo) O catálogo tem 5 TB em arquivo compactado e 38 TB após descompactação

(archive.org)

13 pontos por xguru 2021-10-28 | 1 comentários | Compartilhar no WhatsApp

O pesquisador Carl Malamud divulgou um índice de n-grams extraído com SpaCy de 107.233.728 periódicos, incluindo artigos pagos
Como é um índice que inclui não o texto completo, mas apenas trechos de frases de 1 até 5 palavras, ele contorna restrições de direitos autorais
Foi disponibilizado gratuitamente no Web Archive para uso em diversas áreas de pesquisa

→ Ex.) quantas vezes uma determinada substância química foi usada em artigos

É composto por 3 tabelas

→ 350 bilhões de n-grams e IDs de periódicos

→ 19,7 bilhões de palavras-chave e IDs de periódicos

→ IDs de periódicos e metadados: título do artigo, autor, DOI (identificador único do artigo)

O catálogo tem 5 TB em arquivo compactado e 38 TB após descompactação

1 comentários

xguru 2021-10-28

Artigo de apresentação da Nature

Giant, free index to world’s research papers released online https://www.nature.com/articles/d41586-021-02895-8

Ao divulgar apenas o índice, e não o texto completo de fato, eles aparentemente contornaram a questão dos direitos autorais de uma forma peculiar.

Como também diz a matéria da Nature, a única questão parece ser como Carl obteve os artigos originalmente pagos para gerar o índice; usar esse próprio índice em pesquisas não deve ser um problema.

Isso me fez lembrar de Aaron Swartz... e isso também está indicado no rodapé do material.

Aproveitem para ver também o vídeo do discurso de Carl Malamud no Aaron Swartz Memorial

https://www.youtube.com/watch?v=VllJDnMcTzM

The General Index - índice de n-grams de um milhão de periódicos disponibilizado gratuitamente

Leituras relacionadas

1 comentários