AI2 Dolma: corpus aberto de 3 trilhões de tokens para modelos de linguagem
(blog.allenai.org)- Dataset criado pelo Allen Institute for AI
- Mistura de conteúdo da web, publicações acadêmicas, código, livros e materiais de enciclopédia
- Com 3 trilhões (trillion) de tokens, é o maior dataset já disponibilizado publicamente até agora
- Disponível para download no hub do HuggingFace
- Licença AI2 ImpACT (classificada em Low/Medium/High de acordo com o risco do artifact)
Ainda não há comentários.