RedPajama v2 - conjunto de dados com 30 trilhões (30T) de tokens para treinamento de LLMs

xguru · 2023-11-09T09:46:02+09:00

Escala muito maior em comparação com o RedPajama-1T, que tinha 1 trilhão de tokens Mais de 100 bilhões de documentos de texto contendo mais de 100 trilhões de tokens brutos em 84 dumps do CommonCrawl Inclui mais de 40 anotações de qualidade pré-computadas, as mais usadas, para um subconjunto deduplicado de 30 trilhões de tokens 5 idiomas: inglês, francês, espanhol, alemão e italiano Todos os scripts de processamento de dados são open source e podem ser usados no GitHub, e todos os dados estão disponíveis no HuggingFace

(together.ai)

5 pontos por xguru 2023-11-09 | 1 comentários | Compartilhar no WhatsApp

Escala muito maior em comparação com o RedPajama-1T, que tinha 1 trilhão de tokens
Mais de 100 bilhões de documentos de texto contendo mais de 100 trilhões de tokens brutos em 84 dumps do CommonCrawl
Inclui mais de 40 anotações de qualidade pré-computadas, as mais usadas, para um subconjunto deduplicado de 30 trilhões de tokens
5 idiomas: inglês, francês, espanhol, alemão e italiano
Todos os scripts de processamento de dados são open source e podem ser usados no GitHub, e todos os dados estão disponíveis no HuggingFace

1 comentários

xguru 2023-11-09

RedPajama - Projeto open source que recria o dataset do LLaMA
RedPajama divulga os modelos 3B e 7B
RedPajama divulga modelo 7B com desempenho superior a outros modelos LLM 7B abertos no benchmark HELM

RedPajama v2 - conjunto de dados com 30 trilhões (30T) de tokens para treinamento de LLMs

Leituras relacionadas

1 comentários