Modelos RedPajama 3B e 7B lançados

xguru · 2023-05-08T10:01:01+09:00

Projeto para criar um modelo de linguagem totalmente aberto Com base no dataset RedPajama-Data-1T, lançado há 3 semanas, foram divulgados os modelos RedPajama-INCITE com 3B (concluído) e 7B (preview) parâmetros Modelo Base Modelo ajustado por instruções Modelo de chat O modelo 3B é o mais poderoso da sua categoria. Por ser pequeno, é rápido e pode rodar até em equipamentos como a RTX 2070, lançada há 5 anos A versão 7B ajustada por instruções pontua 3 pontos acima do LLaMA 7B no benchmark HELM O modelo 7B (com 80% do treinamento concluído) já supera o modelo Pythia 7B Quando o treinamento do 7B for concluído nas próximas semanas, deve superar o LLaMA 7B O modelo 3B foi estabilizado com 800 bilhões de tokens, e o modelo 7B está sendo finalizado e aprimorado com treinamento em 1 trilhão de tokens

(together.xyz)

7 pontos por xguru 2023-05-08 | 2 comentários | Compartilhar no WhatsApp

Projeto para criar um modelo de linguagem totalmente aberto
Com base no dataset RedPajama-Data-1T, lançado há 3 semanas, foram divulgados os modelos RedPajama-INCITE com 3B (concluído) e 7B (preview) parâmetros
- Modelo Base
- Modelo ajustado por instruções
- Modelo de chat
O modelo 3B é o mais poderoso da sua categoria. Por ser pequeno, é rápido e pode rodar até em equipamentos como a RTX 2070, lançada há 5 anos
A versão 7B ajustada por instruções pontua 3 pontos acima do LLaMA 7B no benchmark HELM
O modelo 7B (com 80% do treinamento concluído) já supera o modelo Pythia 7B
Quando o treinamento do 7B for concluído nas próximas semanas, deve superar o LLaMA 7B
O modelo 3B foi estabilizado com 800 bilhões de tokens, e o modelo 7B está sendo finalizado e aprimorado com treinamento em 1 trilhão de tokens

2 comentários

coremaker 2023-05-08

É um acontecimento importante para a pesquisa e para o avanço da IA,
mas é bem provável que esses modelos não apresentem soluções para os pontos problemáticos quando usados comercialmente.
No uso comercial, parece que será indispensável acompanhar o uso do modelo com trabalhos como ajuste fino e a implementação de filtros adicionais.

xguru 2023-05-08

RedPajama - projeto open source para recriar o dataset do LLaMA

Modelos RedPajama 3B e 7B lançados

Leituras relacionadas

2 comentários