15 pontos por xguru 2020-10-26 | 2 comentários | Compartilhar no WhatsApp

Materiais semelhantes aos dados usados pelo GPT-3 da OpenAI

  • books3.tar.gz : 37GB, extração em txt de cerca de 197.000 livros

  • github.tar.gz : 106G, coleção de vários repositórios do GitHub

  • stackexchange_dataset.tar : 34G, dados de perguntas e respostas do Stack Exchange

Além disso, há muitos outros materiais diversos

2 comentários

 
ffdd270 2020-10-27

É um pouco aleatório, mas ao ver arquivos e coleções desse tipo para treinamento, acho que a gente percebe mais uma vez que, no mundo digital, não existe liberdade para ser esquecido.

 
xguru 2020-10-26

Consulte a thread no Twitter abaixo para uma explicação sobre este material

https://threadreaderapp.com/thread/1320282149329784833.html