RedPajama - projeto open source para recriar o dataset do LLaMA

xguru · 2023-04-19T10:03:01+09:00

Projeto para criar um modelo de linguagem totalmente aberto e reproduzível, em vez de modelos semiabertos como LLaMA, Alpaca e Vicuna 3 componentes Dados de pré-treinamento com alta qualidade e ampla cobertura Um modelo base treinado em larga escala com base nesses dados Dados e modelo de instruction tuning para tornar o modelo base seguro e utilizável Como primeiro componente, foi lançado o dataset RedPajama-Data-1T Um dataset totalmente aberto composto por 1,2 trilhão de tokens, gerado de acordo com a receita descrita no artigo do LLaMA Disponível para download via HuggingFace. Total de 5 TB (distribuído comprimido em 3 TB) Composto por 7 partes de dados: cada uma foi pré-processada e filtrada para ter uma quantidade semelhante à do artigo do LLaMA (os métodos de pré-processamento e os filtros também estão disponíveis no GitHub) CommonCrawl (878b) - dados de rastreamento da web C4 (175b) - Colossal, Cleaned version of Common Crawl GitHub (59b) - dados do GitHub filtrados por licença e qualidade arXiv (28b) - artigos e papers científicos (com boilerplate removido) Books (26b) - corpus de livros públicos com duplicatas removidas com base na similaridade do conteúdo Wikipedia (24b) - algumas páginas da Wikipedia (com boilerplate removido) StackExchange (20b) - algumas páginas do StackExchange (com boilerplate removido) O próximo passo é treinar um modelo base poderoso. Previsão de lançamento em algumas semanas O ajuste por instruções deve ser feito com o que foi fornecido pelo OpenChatkit

(together.xyz)

14 pontos por xguru 2023-04-19 | 1 comentários | Compartilhar no WhatsApp

Projeto para criar um modelo de linguagem totalmente aberto e reproduzível, em vez de modelos semiabertos como LLaMA, Alpaca e Vicuna
3 componentes
- Dados de pré-treinamento com alta qualidade e ampla cobertura
- Um modelo base treinado em larga escala com base nesses dados
- Dados e modelo de instruction tuning para tornar o modelo base seguro e utilizável
Como primeiro componente, foi lançado o dataset RedPajama-Data-1T
- Um dataset totalmente aberto composto por 1,2 trilhão de tokens, gerado de acordo com a receita descrita no artigo do LLaMA
- Disponível para download via HuggingFace. Total de 5 TB (distribuído comprimido em 3 TB)
- Composto por 7 partes de dados: cada uma foi pré-processada e filtrada para ter uma quantidade semelhante à do artigo do LLaMA (os métodos de pré-processamento e os filtros também estão disponíveis no GitHub)
  - CommonCrawl (878b) - dados de rastreamento da web
  - C4 (175b) - Colossal, Cleaned version of Common Crawl
  - GitHub (59b) - dados do GitHub filtrados por licença e qualidade
  - arXiv (28b) - artigos e papers científicos (com boilerplate removido)
  - Books (26b) - corpus de livros públicos com duplicatas removidas com base na similaridade do conteúdo
  - Wikipedia (24b) - algumas páginas da Wikipedia (com boilerplate removido)
  - StackExchange (20b) - algumas páginas do StackExchange (com boilerplate removido)
O próximo passo é treinar um modelo base poderoso. Previsão de lançamento em algumas semanas
O ajuste por instruções deve ser feito com o que foi fornecido pelo OpenChatkit

1 comentários

xguru 2023-04-19

OpenChatKit lançado - projeto open source para viabilizar a implementação do ChatGPT

RedPajama - projeto open source para recriar o dataset do LLaMA

Leituras relacionadas

1 comentários