7 pontos por xguru 2023-05-08 | 2 comentários | Compartilhar no WhatsApp
  • Projeto para criar um modelo de linguagem totalmente aberto
  • Com base no dataset RedPajama-Data-1T, lançado há 3 semanas, foram divulgados os modelos RedPajama-INCITE com 3B (concluído) e 7B (preview) parâmetros
    • Modelo Base
    • Modelo ajustado por instruções
    • Modelo de chat
  • O modelo 3B é o mais poderoso da sua categoria. Por ser pequeno, é rápido e pode rodar até em equipamentos como a RTX 2070, lançada há 5 anos
  • A versão 7B ajustada por instruções pontua 3 pontos acima do LLaMA 7B no benchmark HELM
  • O modelo 7B (com 80% do treinamento concluído) já supera o modelo Pythia 7B
  • Quando o treinamento do 7B for concluído nas próximas semanas, deve superar o LLaMA 7B
  • O modelo 3B foi estabilizado com 800 bilhões de tokens, e o modelo 7B está sendo finalizado e aprimorado com treinamento em 1 trilhão de tokens

2 comentários

 
coremaker 2023-05-08

É um acontecimento importante para a pesquisa e para o avanço da IA,
mas é bem provável que esses modelos não apresentem soluções para os pontos problemáticos quando usados comercialmente.
No uso comercial, parece que será indispensável acompanhar o uso do modelo com trabalhos como ajuste fino e a implementação de filtros adicionais.