The Pile, um conjunto de dados open source de modelagem de linguagem com 825GiB (2020)

(pile.eleuther.ai)

1 pontos por GN⁺ 2024-03-09 | 1 comentários | Compartilhar no WhatsApp

À medida que a amplitude das fontes de dados se torna mais importante no treinamento de grandes modelos de linguagem, o The Pile foi lançado como um conjunto público de treinamento de 825GiB que reúne 22 conjuntos de dados de alta qualidade
O design central é combinar várias fontes, como livros, código, páginas da web, logs de chat e artigos acadêmicos, para aumentar a generalização entre domínios
Modelos treinados com o The Pile mostraram melhorias moderadas em benchmarks tradicionais de modelagem de linguagem e melhorias significativas em Pile BPB
Como o Pile BPB lida com textos de vários domínios ao mesmo tempo, ele é usado para verificar uma capacidade mais ampla de modelagem de texto do que o desempenho em um único corpus
O leaderboard marca com * a possibilidade de sobreposição com o conjunto de teste, e Zero-shot significa que nem todos os componentes do The Pile estavam incluídos nos dados de treinamento

Composição e distribuição do The Pile

The Pile é um conjunto de dados open source diverso de modelagem de linguagem com 825GiB
É formado pela combinação de 22 conjuntos de dados menores e de alta qualidade em um só
Os arquivos para download são hospedados no the Eye
Se houver um modelo que use o The Pile ou seja avaliado com o The Pile, é possível informar a EleutherAI
Ao usar o The Pile ou seus componentes, o seguinte artigo deve ser citado
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - preprint arXiv arXiv:2101.00027, 2020

O papel como conjunto de treinamento e benchmark

Especialmente em modelos de grande porte, a diversidade das fontes de dados melhora o conhecimento geral entre domínios e a capacidade de generalização em tarefas downstream
Nos resultados de avaliação, modelos treinados com o The Pile mostraram melhorias moderadas em benchmarks tradicionais de modelagem de linguagem e registraram melhorias significativas em Pile BPB
Pile BPB (bits per byte) é um benchmark que exige compreensão de texto em vários domínios
- Os domínios-alvo incluem livros, repositórios do GitHub, páginas da web e logs de chat
- Também inclui artigos de medicina, física, matemática, ciência da computação e filosofia
Esse benchmark exige ao mesmo tempo conhecimento de mundo por domínio e capacidade de raciocínio, sendo usado para avaliar a capacidade de modelagem de texto entre domínios de grandes modelos de linguagem
O exemplo de leaderboard inclui entradas com base em 1º de janeiro de 2021
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * indica a possibilidade de sobreposição potencial com o conjunto de teste
- Zero-shot significa que nem todos os componentes do The Pile estavam incluídos nos dados de treinamento

1 comentários

GN⁺ 2024-03-09

Comentários do Hacker News

Em 2020, quando levantaram preocupação com a inclusão do Books3 no The Pile, Stella Biderman, então responsável pela Eleuther, respondeu o seguinte:
Havia 1) o material-fonte original que existe no mundo e foi colocado online, 2) os dados organizados por conjunto, refinados e processados a partir desse material para modelagem de linguagem, e 3) o The Pile, que combinava em larga escala os dados desses conjuntos, inclusive com ponderações
A Eleuther criou e publicou os itens 2 e 3, explicou que o 2 foi deixado disponível para que as pessoas pudessem reponderar e recombinar, e que a maioria simplesmente baixaria o 3 como estava
Também afirmou que 2 e 3, mesmo contendo dados protegidos por direitos autorais, seriam uso justo segundo o padrão dos EUA e, portanto, não configurariam violação de direitos autorais; que baixar Maroon 5 de um site e criar um conjunto de dados do tipo 2 poderia, dependendo do caso, ser infração, mas que o uso deles não seria
- Dizer que “2 e 3 são uso justo, então não há violação de direitos autorais” é algo que ninguém sabe até isso ser testado em tribunal
  Uso justo não passa a existir porque alguém o declarou unilateralmente; é parecido com Michael Scott, de The Office, gritando “Eu declaro falência!”
  Os tribunais julgam isso considerando 1) o propósito e a natureza do uso, 2) a natureza da obra, 3) a quantidade usada e sua centralidade, e 4) o impacto no mercado potencial ou no valor da obra; é exatamente por isso que a OpenAI está em disputa com o New York Times
  Uma boa visão geral está em https://copyright.columbia.edu/basics/fair-use.html
- Se o conjunto 2 contém uma obra completa cuja distribuição não foi autorizada pelo titular dos direitos, como um livro inteiro, não entendo como essa afirmação pode ser verdadeira
  A não ser que “processamento para modelagem de linguagem” signifique um processo totalmente irreversível
- Não sei qual é a resposta certa para a questão de direitos autorais, mas em 2024 eu gostaria que houvesse uma postura melhor em relação ao trabalho humano que entra nos modelos do que usar passivas como “os dados existem no mundo” ou “os dados foram coletados em um dataset”
- Estão distribuindo obras sem autorização dos autores, usando-as de forma que concorre com os próprios autores, muitas IAs estão ganhando dinheiro com isso, e algumas reproduzem o texto original literalmente
  Esses datasets parecem falhar na maior parte da análise dos 4 fatores da lei de direitos autorais, e até pessoas leigas para quem expliquei LLMs entenderam isso como empresas de IA roubando o trabalho alheio
  Há um texto que organiza as questões jurídicas relevantes, cada dataset incluindo o The Pile, alternativas legais e propostas equilibradas de reforma de direitos autorais: http://gethisword.com/tech/exploringai/
  Neste momento, no mínimo em pelo menos um país, eu diria que três regras são necessárias imediatamente: obras às quais se tem acesso legal devem poder ser usadas para treino de IA; restrições de treino, cobranças adicionais e restrições de download devem ser ilegais; deve ser permitido copiar e transformar obras acessíveis para treino com finalidade de uso pessoal; e obras publicadas gratuitamente na web devem poder ser copiadas, compartilhadas, processadas e agrupadas para treino de IA independentemente das condições
  Os direitos autorais sobre saídas de IA devem seguir a doutrina jurídica já existente para IA e obras mistas; se a saída for protegida por direitos autorais, o usuário deve ter o mesmo status de alguém que publicou diretamente com base em uma obra preexistente; e, para que isso possa ser avaliado, os conjuntos de treino também devem ser divulgados
- Raspar o Libgen e baixar conteúdo protegido por direitos autorais para redistribuí-lo não seria ilegal?
  Sou cético. Fazer seed via torrent de um filme baixado de algum lugar da internet não é “uso justo”, e o The Pile não é só o código que transforma os dados, mas os próprios dados redistribuídos
  Por essa lógica, daria para operar um espelho do Libgen legalmente
Onde dá para verificar a reprodução das licenças e os créditos/atribuições dos conteúdos distribuídos neste dataset?
Está tudo incluído? Dá para saber se todos os itens incluídos estão em conformidade?
Posso até aceitar a discussão de que um gerador criado com um modelo treinado em dados protegidos por direitos autorais talvez consiga evitar obrigações de copyright no output, mas o próprio dataset não fica obviamente vinculado aos direitos autorais do conteúdo que contém?
- Este dataset inclui o Books3, que é praticamente um dump completo do Bibliotik, um tracker de torrent dedicado a e-books piratas
  Se você encher uma parede com nomes de autores ou editoras famosas e jogar um dardo, há uma boa chance de acertar alguém que detenha os direitos de parte desses dados
  Parece que, se for “para pesquisa em IA”, vale tudo. Como se bastasse ter um domínio .ai para poder subir rip de Blu-ray
- Roubaram porque acham que construir seu próprio brinquedo é mais importante do que os direitos que outras pessoas têm sobre o fruto do próprio trabalho
Não consigo acreditar que as pessoas compartilhem e republiquem obras protegidas por direitos autorais na internet. Chocante
Enfim, então RedPajama 30T e The Pile são “all you need”? ;)
- Para pré-treinamento voltado a lidar depois com tarefas específicas de processamento de linguagem natural, é suficiente
  Para obter resultados interessantes, ainda é preciso gerar a partir disso datasets de instrução, e eles precisam cobrir tarefas diversas
  Não é a frase completa em si que faz o LLM demonstrar conhecimento e raciocínio; são datasets de instrução grandes e diversos que fazem isso
- Houve tanta controvérsia sobre direitos autorais que está em andamento um projeto para criar o The Pile v2 contendo apenas dados com licença permissiva
O Books3 citado no artigo do The Pile é mesmo aquele conjunto de dados pelo qual os autores estão sendo processados? Aquele com uma grande quantidade de material popular e protegido por direitos autorais?
- Sim. Segundo o artigo linkado, o Books3 é um conjunto de dados de livros derivado de uma cópia do conteúdo do tracker privado Bibliotik, divulgada por Shawn Presser
  O Bibliotik mistura ficção e não ficção, é quase uma ordem de grandeza maior que o BookCorpus2, o próximo maior conjunto de dados de livros, e foi incluído porque livros são valiosos para pesquisa em modelagem de contexto longo e narrativa consistente
- Como ponto de partida para acompanhar vários processos judiciais, esta lista parece boa. Não sei com que frequência ela é atualizada, inclusive no caso Silverman e outros
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- Parece que sim. Veja https://www.wired.com/story/battle-over-books3/
- Eles alegam que os próprios dados deles não vieram de fontes protegidas por direitos autorais, ou que não estão sujeitos a direitos autorais?
Muita atenção foi dada ao Books3, mas outro grande componente deste conjunto de dados é o enganosamente nomeado OpenWebText2
Isso foi raspado de 15 anos de sites de terceiros linkados em postagens do Reddit com muitas recomendações, e parte dos meus textos está lá
- Deixando de lado relevância e impacto, é difícil aceitar a ideia de publicar algo abertamente na internet em um site sem restrição de acesso e depois reivindicar direitos morais sobre esse conteúdo
  É como transmitir por rádio ou entregar material impresso na porta de milhões de casas aleatórias
  Existem formas de estabelecer propriedade intelectual e proteger dados por direitos autorais, mas fanfics no Tumblr, comentários no YouTube e discussões no HN não são caminhos formais para garantir direitos autorais
  O que foi publicado em sites que podem ser raspados legalmente pode se enquadrar em uso justo
  Dados coletados de sites públicos são algo com que, pessoalmente, você pode fazer o que quiser, e até criar um ótimo LLM do HN com o conjunto de dados raspado para uso pessoal
  Considerando decisões judiciais recentes, desde que se faça um esforço de boa-fé para respeitar direitos autorais e impedir a reprodução do texto original, pode ser possível até fornecer por API e usar comercialmente um modelo treinado em todas as obras do mundo
  Mas vender ou distribuir o próprio modelo entra em outra área jurídica
  A internet foi projetada para funcionar assim, e se você quer impedir acesso, deve implementar autenticação, configuração de rede e controle de acesso
  Se publicou em um site público sem esses mecanismos, em grande parte deve-se considerar que você abriu mão de alegar proteção ampla de uso justo, e no momento em que colocou um servidor e um domínio no ar, implicitamente convidou o mundo inteiro a vir baixar
  O que se considera uso indevido no OpenWebText2, no fundo, também decorre de ter sido colocado em um site público e de se ter perdido o controle sobre o uso posterior; foi raspado de forma justa
- Se você disser o nome do domínio, eu verifico nos principais LLMs se há plágio
  Acho improvável que qualquer modelo consiga gerar sequer uma frase dos seus textos
Ainda dá para baixar isso em algum lugar? Tentei baixar há alguns meses, mas o link de download dava 404, e parece continuar assim
- A distribuição acontece principalmente por links de torrent e magnet e troca direta de discos rígidos
  Se você não conhece alguém que já tenha, pode procurar em trackers públicos
  Mas é bom saber que, como inclui conteúdo protegido por direitos autorais, distribuir isso constitui pirataria
- Não sei se tudo bem postar um link magnet aqui
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile já é notícia antiga, e há indicações para olhar conjuntos de dados mais recentes, como o the-stack-v2
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- O The Pile inclui muitas fontes selecionadas, e a tendência recente é combinar fontes de dados selecionadas com rastreamentos da web filtrados
  Por exemplo, misturando Common Crawl após um processamento pesado; exemplos disso são o dolma citado por outras pessoas e o the-stack-v2 para modelos de código
O nome é legal. Lembra o “Pile” original do Manhattan Project
Li sobre isso em “The Making of the Atomic Bomb” (1986), e acho que deve ter aparecido no filme recente também
- Na verdade, quase não aparece. Pelo que me lembro, houve apenas uma cena em que foi mencionado muito brevemente
  O filme pareceu costurar anedotas para criar uma mensagem meio tosca no final
  Como história ficcional, e não como reconstituição fiel, foi um filme ok, mas acho melhor ler o livro
  Especialmente se você se interessa por Fermi, recomendo “The Last Man Who Knew Everything”, de David Schwartz
O The Pile já é bem antigo; esta é uma versão atualizada?
- Não
  Em relação a isso, a versão v2 do dataset the-stack foi lançada recentemente
  Dizem que ele percorreu o dataset de grafos do Software Heritage de 2023-09-06 e coletou 3,28 bilhões de arquivos únicos pertencentes a 104,2 milhões de repositórios do GitHub, além de reunir metadados no nível de repositório a partir dos dados do GitHub Archive até 2023-09-14
  O tamanho total sem compressão é de 67,53 TB, e o pipeline de pré-processamento implementou desduplicação aproximada sobre uma desduplicação exata
  Após a desduplicação, em tamanho e quantidade de tokens, a v1 tem 2,9 TB·200B e a v2 tem 32,1 TB·900B
  Parece que em breve deve sair um modelo de código público bem forte, e os modelos que quero testar são dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF e starcoder2-15b-instruct-iMat.GGUF
  Dataset: https://huggingface.co/datasets/bigcode/the-stack-v2
  Quantização GGUF: https://huggingface.co/dranger003
Grandes estúdios de Hollywood pagam muito dinheiro a várias empresas de cibersegurança para encontrar conteúdo pirateado e enviar notificações de cessação por violação de direitos autorais às empresas de hospedagem
Se autores e artistas se reunirem em formas como consórcios de dados, eles podem fazer o mesmo tipo de coisa que os estúdios
Se a lei de direitos autorais tiver força real, esse tipo de organização poderá enviar pedidos legais aos locais que hospedam esse conteúdo e exigir sua remoção

The Pile, um conjunto de dados open source de modelagem de linguagem com 825GiB (2020)

Composição e distribuição do The Pile

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

O papel como conjunto de treinamento e benchmark

Leituras relacionadas

1 comentários

Comentários do Hacker News