14 pontos por xguru 2023-04-19 | 1 comentários | Compartilhar no WhatsApp
  • Projeto para criar um modelo de linguagem totalmente aberto e reproduzível, em vez de modelos semiabertos como LLaMA, Alpaca e Vicuna
  • 3 componentes
    • Dados de pré-treinamento com alta qualidade e ampla cobertura
    • Um modelo base treinado em larga escala com base nesses dados
    • Dados e modelo de instruction tuning para tornar o modelo base seguro e utilizável
  • Como primeiro componente, foi lançado o dataset RedPajama-Data-1T
    • Um dataset totalmente aberto composto por 1,2 trilhão de tokens, gerado de acordo com a receita descrita no artigo do LLaMA
    • Disponível para download via HuggingFace. Total de 5 TB (distribuído comprimido em 3 TB)
    • Composto por 7 partes de dados: cada uma foi pré-processada e filtrada para ter uma quantidade semelhante à do artigo do LLaMA (os métodos de pré-processamento e os filtros também estão disponíveis no GitHub)
      • CommonCrawl (878b) - dados de rastreamento da web
      • C4 (175b) - Colossal, Cleaned version of Common Crawl
      • GitHub (59b) - dados do GitHub filtrados por licença e qualidade
      • arXiv (28b) - artigos e papers científicos (com boilerplate removido)
      • Books (26b) - corpus de livros públicos com duplicatas removidas com base na similaridade do conteúdo
      • Wikipedia (24b) - algumas páginas da Wikipedia (com boilerplate removido)
      • StackExchange (20b) - algumas páginas do StackExchange (com boilerplate removido)
  • O próximo passo é treinar um modelo base poderoso. Previsão de lançamento em algumas semanas
  • O ajuste por instruções deve ser feito com o que foi fornecido pelo OpenChatkit