Coleção de dados de texto para treinamento de IA

(the-eye.eu)

15 pontos por xguru 2020-10-26 | 2 comentários | Compartilhar no WhatsApp

Materiais semelhantes aos dados usados pelo GPT-3 da OpenAI

books3.tar.gz : 37GB, extração em txt de cerca de 197.000 livros
github.tar.gz : 106G, coleção de vários repositórios do GitHub
stackexchange_dataset.tar : 34G, dados de perguntas e respostas do Stack Exchange

Além disso, há muitos outros materiais diversos

2 comentários

ffdd270 2020-10-27

É um pouco aleatório, mas ao ver arquivos e coleções desse tipo para treinamento, acho que a gente percebe mais uma vez que, no mundo digital, não existe liberdade para ser esquecido.

xguru 2020-10-26

Consulte a thread no Twitter abaixo para uma explicação sobre este material

https://threadreaderapp.com/thread/1320282149329784833.html

Coleção de dados de texto para treinamento de IA

Leituras relacionadas

2 comentários