Coleção de dados de texto para treinamento de IA
(the-eye.eu)Materiais semelhantes aos dados usados pelo GPT-3 da OpenAI
-
books3.tar.gz : 37GB, extração em txt de cerca de 197.000 livros
-
github.tar.gz : 106G, coleção de vários repositórios do GitHub
-
stackexchange_dataset.tar : 34G, dados de perguntas e respostas do Stack Exchange
Além disso, há muitos outros materiais diversos
2 comentários
É um pouco aleatório, mas ao ver arquivos e coleções desse tipo para treinamento, acho que a gente percebe mais uma vez que, no mundo digital, não existe liberdade para ser esquecido.
Consulte a thread no Twitter abaixo para uma explicação sobre este material
https://threadreaderapp.com/thread/1320282149329784833.html