5 pontos por xguru 2023-11-09 | 1 comentários | Compartilhar no WhatsApp
  • Escala muito maior em comparação com o RedPajama-1T, que tinha 1 trilhão de tokens
  • Mais de 100 bilhões de documentos de texto contendo mais de 100 trilhões de tokens brutos em 84 dumps do CommonCrawl
  • Inclui mais de 40 anotações de qualidade pré-computadas, as mais usadas, para um subconjunto deduplicado de 30 trilhões de tokens
  • 5 idiomas: inglês, francês, espanhol, alemão e italiano
  • Todos os scripts de processamento de dados são open source e podem ser usados no GitHub, e todos os dados estão disponíveis no HuggingFace