13 pontos por xguru 2021-10-28 | 1 comentários | Compartilhar no WhatsApp
  • O pesquisador Carl Malamud divulgou um índice de n-grams extraído com SpaCy de 107.233.728 periódicos, incluindo artigos pagos

  • Como é um índice que inclui não o texto completo, mas apenas trechos de frases de 1 até 5 palavras, ele contorna restrições de direitos autorais

  • Foi disponibilizado gratuitamente no Web Archive para uso em diversas áreas de pesquisa

→ Ex.) quantas vezes uma determinada substância química foi usada em artigos

  • É composto por 3 tabelas

→ 350 bilhões de n-grams e IDs de periódicos

→ 19,7 bilhões de palavras-chave e IDs de periódicos

→ IDs de periódicos e metadados: título do artigo, autor, DOI (identificador único do artigo)

  • O catálogo tem 5 TB em arquivo compactado e 38 TB após descompactação

1 comentários

 
xguru 2021-10-28

Artigo de apresentação da Nature

Ao divulgar apenas o índice, e não o texto completo de fato, eles aparentemente contornaram a questão dos direitos autorais de uma forma peculiar.

Como também diz a matéria da Nature, a única questão parece ser como Carl obteve os artigos originalmente pagos para gerar o índice; usar esse próprio índice em pesquisas não deve ser um problema.

Isso me fez lembrar de Aaron Swartz... e isso também está indicado no rodapé do material.

Aproveitem para ver também o vídeo do discurso de Carl Malamud no Aaron Swartz Memorial