15 pontos por ninebow 2023-06-07 | 3 comentários | Compartilhar no WhatsApp

Introdução aos 3 modelos RedPajama-INCITE-7B

  • Foram lançados três modelos 7B, incluindo o RedPajama-INCITE-7B-Instruct, que supera os modelos 7B abertos já existentes no benchmark HELM

Modelo RedPajama-INCITE-7B-Instruct

  • Versão com ajuste Instruct do modelo existente
  • Treinado com P3 (BigScience) e Natural Instruction (AI2)
  • Modelo aberto com a maior pontuação no benchmark HELM, ideal para diversas tarefas

Modelo RedPajama-INCITE-7B-Chat

  • Treinado usando apenas dados open source, como Dolly2 e OASST ➡️ uso comercial permitido
    • (+ Não só o modelo Chat, mas toda a família RedPajama-INCITE pode ser usada comercialmente)
  • Divulgado junto com scripts de treinamento para fine-tuning :arrow_forward: pode ser usado imediatamente no OpenChatKit
  • Suporta RedPajama.cpp (fork de LLaMA.cpp) - pode rodar em CPU
  • Colaboração com projetos como MLC LLM ➡️ permitir funcionamento em vários tipos de hardware no futuro

Modelo RedPajama-INCITE-7B-Base

  • Usa a mesma arquitetura do modelo Pythia, da EleutherAI, e foi treinado com o dataset RedPajama-Data-1T
  • Disponível para download em 🤗HuggingFace em togethercomputer/RedPajama-INCITE-7B-Base
  • No benchmark HELM, tem desempenho cerca de 4 pontos abaixo do LLaMA-7B e cerca de 1,3 ponto abaixo de Falcon-7B/MPT-7B
    • O desempenho inferior aparece apenas em tarefas que calculam a diferença de probabilidade entre respostas corretas e incorretas usando logprob
    • Em tarefas que geram a resposta diretamente e medem sua qualidade, mostra desempenho semelhante
    • Como os resultados do LM Harness também usam logprob, o desempenho também aparece de forma semelhante como inferior

Planos futuros (RedPajama2)

  • Está em desenvolvimento o RedPajama2, um novo dataset de 2~3T tokens, com os seguintes planos:
    • Pretendem equilibrar a mistura de dados usando técnicas como DoReMi
    • Uso de dados como Pile v1 da Eleuther.ai e Pile v2 da CarperAI para complementar diversidade e tamanho
    • Processamento de uma quantidade maior de dados do CommonCrawl
    • Exploração de várias estratégias de desduplicação de dados além da abordagem do artigo do LLaMA
    • Adição de mais de 150B tokens de código para melhorar a qualidade em tarefas de programação e raciocínio