RedPajama anuncia modelo 7B com desempenho superior aos outros modelos LLM 7B abertos no benchmark HELM

ninebow · 2023-06-07T01:01:15+09:00

Introdução aos 3 modelos RedPajama-INCITE-7B Foram lançados três modelos 7B, incluindo o RedPajama-INCITE-7B-Instruct, que supera os modelos 7B abertos já existentes no benchmark HELM Modelo RedPajama-INCITE-7B-Instruct Versão com ajuste Instruct do modelo existente Treinado com P3 (BigScience) e Natural Instruction (AI2) Modelo aberto com a maior pontuação no benchmark HELM, ideal para diversas tarefas Modelo RedPajama-INCITE-7B-Chat Treinado usando apenas dados open source, como Dolly2 e OASST ➡️ uso comercial permitido (+ Não só o modelo Chat, mas toda a família RedPajama-INCITE pode ser usada comercialmente) Divulgado junto com scripts de treinamento para fine-tuning :arrow_forward: pode ser usado imediatamente no OpenChatKit Suporta RedPajama.cpp (fork de LLaMA.cpp) - pode rodar em CPU Colaboração com projetos como MLC LLM ➡️ permitir funcionamento em vários tipos de hardware no futuro Modelo RedPajama-INCITE-7B-Base Usa a mesma arquitetura do modelo Pythia, da EleutherAI, e foi treinado com o dataset RedPajama-Data-1T Disponível para download em 🤗HuggingFace em togethercomputer/RedPajama-INCITE-7B-Base No benchmark HELM, tem desempenho cerca de 4 pontos abaixo do LLaMA-7B e cerca de 1,3 ponto abaixo de Falcon-7B/MPT-7B O desempenho inferior aparece apenas em tarefas que calculam a diferença de probabilidade entre respostas corretas e incorretas usando logprob Em tarefas que geram a resposta diretamente e medem sua qualidade, mostra desempenho semelhante Como os resultados do LM Harness também usam logprob, o desempenho também aparece de forma semelhante como inferior Planos futuros (RedPajama2) Está em desenvolvimento o RedPajama2, um novo dataset de 2~3T tokens, com os seguintes planos: Pretendem equilibrar a mistura de dados usando técnicas como DoReMi Uso de dados como Pile v1 da Eleuther.ai e Pile v2 da CarperAI para complementar diversidade e tamanho Processamento de uma quantidade maior de dados do CommonCrawl Exploração de várias estratégias de desduplicação de dados além da abordagem do artigo do LLaMA Adição de mais de 150B tokens de código para melhorar a qualidade em tarefas de programação e raciocínio

(together.xyz)

15 pontos por ninebow 2023-06-07 | 3 comentários | Compartilhar no WhatsApp

Introdução aos 3 modelos RedPajama-INCITE-7B

Foram lançados três modelos 7B, incluindo o RedPajama-INCITE-7B-Instruct, que supera os modelos 7B abertos já existentes no benchmark HELM

Modelo RedPajama-INCITE-7B-Instruct

Versão com ajuste Instruct do modelo existente
Treinado com P3 (BigScience) e Natural Instruction (AI2)
Modelo aberto com a maior pontuação no benchmark HELM, ideal para diversas tarefas

Modelo RedPajama-INCITE-7B-Chat

Treinado usando apenas dados open source, como Dolly2 e OASST ➡️ uso comercial permitido
- (+ Não só o modelo Chat, mas toda a família RedPajama-INCITE pode ser usada comercialmente)
Divulgado junto com scripts de treinamento para fine-tuning :arrow_forward: pode ser usado imediatamente no OpenChatKit
Suporta RedPajama.cpp (fork de LLaMA.cpp) - pode rodar em CPU
Colaboração com projetos como MLC LLM ➡️ permitir funcionamento em vários tipos de hardware no futuro

Modelo RedPajama-INCITE-7B-Base

Usa a mesma arquitetura do modelo Pythia, da EleutherAI, e foi treinado com o dataset RedPajama-Data-1T
Disponível para download em 🤗HuggingFace em togethercomputer/RedPajama-INCITE-7B-Base
No benchmark HELM, tem desempenho cerca de 4 pontos abaixo do LLaMA-7B e cerca de 1,3 ponto abaixo de Falcon-7B/MPT-7B
- O desempenho inferior aparece apenas em tarefas que calculam a diferença de probabilidade entre respostas corretas e incorretas usando logprob
- Em tarefas que geram a resposta diretamente e medem sua qualidade, mostra desempenho semelhante
- Como os resultados do LM Harness também usam logprob, o desempenho também aparece de forma semelhante como inferior

Planos futuros (RedPajama2)

Está em desenvolvimento o RedPajama2, um novo dataset de 2~3T tokens, com os seguintes planos:
- Pretendem equilibrar a mistura de dados usando técnicas como DoReMi
- Uso de dados como Pile v1 da Eleuther.ai e Pile v2 da CarperAI para complementar diversidade e tamanho
- Processamento de uma quantidade maior de dados do CommonCrawl
- Exploração de várias estratégias de desduplicação de dados além da abordagem do artigo do LLaMA
- Adição de mais de 150B tokens de código para melhorar a qualidade em tarefas de programação e raciocínio

3 comentários

ninebow 2023-06-07

Ah... havia um erro de digitação no título...
@xguru, será que você poderia mudar o HEML do título para HELM?...

moderator 2023-06-08

Já corrigi!