- Projeto para criar um modelo de linguagem totalmente aberto e reproduzível, em vez de modelos semiabertos como LLaMA, Alpaca e Vicuna
- 3 componentes
- Dados de pré-treinamento com alta qualidade e ampla cobertura
- Um modelo base treinado em larga escala com base nesses dados
- Dados e modelo de instruction tuning para tornar o modelo base seguro e utilizável
- Como primeiro componente, foi lançado o dataset RedPajama-Data-1T
- Um dataset totalmente aberto composto por 1,2 trilhão de tokens, gerado de acordo com a receita descrita no artigo do LLaMA
- Disponível para download via HuggingFace. Total de 5 TB (distribuído comprimido em 3 TB)
- Composto por 7 partes de dados: cada uma foi pré-processada e filtrada para ter uma quantidade semelhante à do artigo do LLaMA (os métodos de pré-processamento e os filtros também estão disponíveis no GitHub)
- CommonCrawl (878b) - dados de rastreamento da web
- C4 (175b) - Colossal, Cleaned version of Common Crawl
- GitHub (59b) - dados do GitHub filtrados por licença e qualidade
- arXiv (28b) - artigos e papers científicos (com boilerplate removido)
- Books (26b) - corpus de livros públicos com duplicatas removidas com base na similaridade do conteúdo
- Wikipedia (24b) - algumas páginas da Wikipedia (com boilerplate removido)
- StackExchange (20b) - algumas páginas do StackExchange (com boilerplate removido)
- O próximo passo é treinar um modelo base poderoso. Previsão de lançamento em algumas semanas
- O ajuste por instruções deve ser feito com o que foi fornecido pelo OpenChatkit
1 comentários
OpenChatKit lançado - projeto open source para viabilizar a implementação do ChatGPT