- Escala muito maior em comparação com o RedPajama-1T, que tinha 1 trilhão de tokens
- Mais de 100 bilhões de documentos de texto contendo mais de 100 trilhões de tokens brutos em 84 dumps do CommonCrawl
- Inclui mais de 40 anotações de qualidade pré-computadas, as mais usadas, para um subconjunto deduplicado de 30 trilhões de tokens
- 5 idiomas: inglês, francês, espanhol, alemão e italiano
- Todos os scripts de processamento de dados são open source e podem ser usados no GitHub, e todos os dados estão disponíveis no HuggingFace
1 comentários
RedPajama - Projeto open source que recria o dataset do LLaMA
RedPajama divulga os modelos 3B e 7B
RedPajama divulga modelo 7B com desempenho superior a outros modelos LLM 7B abertos no benchmark HELM