The General Index - índice de n-grams de um milhão de periódicos disponibilizado gratuitamente
(archive.org)-
O pesquisador Carl Malamud divulgou um índice de n-grams extraído com SpaCy de 107.233.728 periódicos, incluindo artigos pagos
-
Como é um índice que inclui não o texto completo, mas apenas trechos de frases de 1 até 5 palavras, ele contorna restrições de direitos autorais
-
Foi disponibilizado gratuitamente no Web Archive para uso em diversas áreas de pesquisa
→ Ex.) quantas vezes uma determinada substância química foi usada em artigos
- É composto por 3 tabelas
→ 350 bilhões de n-grams e IDs de periódicos
→ 19,7 bilhões de palavras-chave e IDs de periódicos
→ IDs de periódicos e metadados: título do artigo, autor, DOI (identificador único do artigo)
- O catálogo tem 5 TB em arquivo compactado e 38 TB após descompactação
1 comentários
Artigo de apresentação da Nature
Ao divulgar apenas o índice, e não o texto completo de fato, eles aparentemente contornaram a questão dos direitos autorais de uma forma peculiar.
Como também diz a matéria da Nature, a única questão parece ser como Carl obteve os artigos originalmente pagos para gerar o índice; usar esse próprio índice em pesquisas não deve ser um problema.
Isso me fez lembrar de Aaron Swartz... e isso também está indicado no rodapé do material.
Aproveitem para ver também o vídeo do discurso de Carl Malamud no Aaron Swartz Memorial