RedPajama anuncia modelo 7B com desempenho superior aos outros modelos LLM 7B abertos no benchmark HELM
(together.xyz)Introdução aos 3 modelos RedPajama-INCITE-7B
- Foram lançados três modelos 7B, incluindo o RedPajama-INCITE-7B-Instruct, que supera os modelos 7B abertos já existentes no benchmark HELM
Modelo RedPajama-INCITE-7B-Instruct
- Versão com ajuste Instruct do modelo existente
- Treinado com P3 (BigScience) e Natural Instruction (AI2)
- Modelo aberto com a maior pontuação no benchmark HELM, ideal para diversas tarefas
Modelo RedPajama-INCITE-7B-Chat
- Treinado usando apenas dados open source, como Dolly2 e OASST ➡️ uso comercial permitido
- (+ Não só o modelo Chat, mas toda a família RedPajama-INCITE pode ser usada comercialmente)
- Divulgado junto com scripts de treinamento para fine-tuning :arrow_forward: pode ser usado imediatamente no OpenChatKit
- Suporta RedPajama.cpp (fork de LLaMA.cpp) - pode rodar em CPU
- Colaboração com projetos como MLC LLM ➡️ permitir funcionamento em vários tipos de hardware no futuro
Modelo RedPajama-INCITE-7B-Base
- Usa a mesma arquitetura do modelo Pythia, da EleutherAI, e foi treinado com o dataset RedPajama-Data-1T
- Disponível para download em 🤗HuggingFace em togethercomputer/RedPajama-INCITE-7B-Base
- No benchmark HELM, tem desempenho cerca de 4 pontos abaixo do LLaMA-7B e cerca de 1,3 ponto abaixo de Falcon-7B/MPT-7B
- O desempenho inferior aparece apenas em tarefas que calculam a diferença de probabilidade entre respostas corretas e incorretas usando logprob
- Em tarefas que geram a resposta diretamente e medem sua qualidade, mostra desempenho semelhante
- Como os resultados do LM Harness também usam logprob, o desempenho também aparece de forma semelhante como inferior
Planos futuros (RedPajama2)
- Está em desenvolvimento o RedPajama2, um novo dataset de 2~3T tokens, com os seguintes planos:
- Pretendem equilibrar a mistura de dados usando técnicas como DoReMi
- Uso de dados como Pile v1 da Eleuther.ai e Pile v2 da CarperAI para complementar diversidade e tamanho
- Processamento de uma quantidade maior de dados do CommonCrawl
- Exploração de várias estratégias de desduplicação de dados além da abordagem do artigo do LLaMA
- Adição de mais de 150B tokens de código para melhorar a qualidade em tarefas de programação e raciocínio
3 comentários
Ah... havia um erro de digitação no título...
@xguru, será que você poderia mudar o HEML do título para HELM?...
Já corrigi!
Leia mais