1 pontos por GN⁺ 2024-03-09 | Ainda não há comentários. | Compartilhar no WhatsApp

The Pile: um conjunto de dados de 800 GB de textos diversos para modelagem de linguagem

  • The Pile é um conjunto de dados diverso e open source para modelagem de linguagem, com 825 GiB, criado pela combinação de 22 conjuntos de dados pequenos e de alta qualidade.
  • Esse conjunto de dados é hospedado pela instituição Eye e comprimido com zstandard no formato de dados jsonlines.
  • Se houver algum modelo que use ou avalie o The Pile, solicita-se que os desenvolvedores sejam informados.

Por que usar o The Pile como conjunto de treinamento

  • Pesquisas recentes indicam que, especialmente no caso de modelos grandes, a diversidade das fontes de dados melhora o conhecimento geral entre domínios do modelo e sua capacidade de generalização em tarefas downstream.
  • Nos resultados de avaliação, os modelos treinados com o The Pile mostram melhorias moderadas nos benchmarks tradicionais de modelagem de linguagem e melhorias significativas no Pile BPB.

Por que usar o The Pile como benchmark

  • Para obter uma boa pontuação no Pile BPB (bits por byte), o modelo precisa ser capaz de entender diversos domínios, como livros, repositórios do GitHub, páginas da web, logs de chat, medicina, física, matemática, ciência da computação e artigos de filosofia.
  • O Pile BPB é uma métrica que mede conhecimento de mundo e capacidade de raciocínio nesses domínios, sendo um benchmark robusto da capacidade geral de modelagem de texto entre domínios de grandes modelos de linguagem.

Citação

  • Caso use o The Pile ou seus componentes, solicita-se citar da seguinte forma.
@article{pile,
  title={The {P}ile: An 800GB Dataset of Diverse Text for Language Modeling},
  author={Gao, Leo and Biderman, Stella and Black, Sid and Golding, Laurence and Hoppe, Travis and Foster, Charles and Phang, Jason and He, Horace and Thite, Anish and Nabeshima, Noa and Presser, Shawn and Leahy, Connor},
  journal={arXiv preprint arXiv:2101.00027},
  year={2020}
}

Leaderboard

  • O leaderboard indica a possibilidade de sobreposição com o conjunto de teste, e Zero-shot significa que todos os componentes do Pile não estavam incluídos nos dados de treinamento.
  • GPT-3 (Zero-Shot)* e GPT-2 (Zero-Shot)* foram classificados pela OpenAI em 1º de janeiro de 2021 com Test BPB de 0.7177 e 1.225, respectivamente.
  • O código de avaliação é fornecido pela EleutherAI 2021.

Opinião do GN⁺

  • O conjunto de dados The Pile reflete resultados recentes de pesquisa que mostram a importância da diversidade dos dados no treinamento e benchmarking de modelos de linguagem. Isso contribui para que os modelos de linguagem consigam compreender e processar textos variados do mundo real.
  • O tamanho e a diversidade do conjunto de dados permitem que o modelo aprenda uma gama mais ampla de conhecimento e desenvolva melhor capacidade de generalização. Isso pode ser visto como um avanço importante, especialmente na área de inteligência artificial.
  • No entanto, para aproveitar de forma eficaz conjuntos de dados dessa escala, são necessários recursos computacionais consideráveis, o que levanta questões sobre custo e impacto ambiental.
  • Outros projetos com função semelhante incluem grandes modelos de linguagem como o GPT-3 da OpenAI, que também aprendem a partir de fontes de dados diversas.
  • Antes de usar o The Pile, é necessário compreender suficientemente a origem e a qualidade dos dados, bem como o conteúdo que o modelo irá aprender. O benefício de escolher esse conjunto de dados é a aquisição de conhecimento diversificado pelo modelo, mas também é preciso considerar os custos de processamento e armazenamento dos dados.

Ainda não há comentários.

Ainda não há comentários.