- Projeto para criar um modelo de linguagem totalmente aberto
- Com base no dataset RedPajama-Data-1T, lançado há 3 semanas, foram divulgados os modelos RedPajama-INCITE com 3B (concluído) e 7B (preview) parâmetros
- Modelo Base
- Modelo ajustado por instruções
- Modelo de chat
- O modelo 3B é o mais poderoso da sua categoria. Por ser pequeno, é rápido e pode rodar até em equipamentos como a RTX 2070, lançada há 5 anos
- A versão 7B ajustada por instruções pontua 3 pontos acima do LLaMA 7B no benchmark HELM
- O modelo 7B (com 80% do treinamento concluído) já supera o modelo Pythia 7B
- Quando o treinamento do 7B for concluído nas próximas semanas, deve superar o LLaMA 7B
- O modelo 3B foi estabilizado com 800 bilhões de tokens, e o modelo 7B está sendo finalizado e aprimorado com treinamento em 1 trilhão de tokens
2 comentários
É um acontecimento importante para a pesquisa e para o avanço da IA,
mas é bem provável que esses modelos não apresentem soluções para os pontos problemáticos quando usados comercialmente.
No uso comercial, parece que será indispensável acompanhar o uso do modelo com trabalhos como ajuste fino e a implementação de filtros adicionais.
RedPajama - projeto open source para recriar o dataset do LLaMA