- Modelo de 7.52B de parâmetros baseado na arquitetura RWKV-v5
- O modelo 7B mais ecológico do mundo, com baixo custo por token
- Treinado com 1,1 trilhão de tokens em mais de 100 idiomas
- Supera todos os modelos da classe 7B em benchmarks multilíngues
- Em avaliações em inglês, aproxima-se do nível de desempenho de Falcon (1.5T), LLaMA2 (2T) e Mistral (>2T?)
- Modelo fundacional com ajuste de instruções muito pequeno, exigindo fine-tuning para diversos casos de uso
- Um transformer sem necessidade de Attention
- Licenciado sob Apache 2.0, podendo ser usado sem restrições para fins pessoais ou comerciais
Detalhes do desempenho multilíngue
- O desempenho multilíngue foi avaliado em 23 idiomas no total, usando xLAMBDA, xStoryCloze, xWinograd, xCopa e outros.
- Esses benchmarks tratam de raciocínio de senso comum em cada idioma.
- A mudança da arquitetura RWKV v4 para v5 melhorou significativamente o desempenho multilíngue.
- Como há escassez de benchmarks multilíngues, é difícil avaliar diretamente o desempenho linguístico do modelo nos mais de 75 idiomas restantes entre os mais de 100 em que foi treinado.
Detalhes do desempenho em inglês
- O desempenho em inglês foi medido por meio de 12 benchmarks separados que tratam de raciocínio de senso comum e conhecimento geral do mundo.
- A mudança da arquitetura RWKV v4 para v5 melhorou significativamente o desempenho em inglês.
- O modelo v5 está em linha com o nível de desempenho esperado de transformers para o volume de tokens de treinamento fornecido.
- Espera-se que, com mais 1 trilhão de tokens de treinamento, ele alcance o nível do LLaMA2 e se aproxime do nível do Mistral.
Bom dataset + arquitetura escalável: todo mundo precisa disso?
- O checkpoint no marco de 300 bilhões de tokens mostra desempenho semelhante ao pythia-6.9b.
- Em linha com experimentos anteriores na arquitetura RWKV-v4, transformers lineares como o RWKV escalam para um nível de desempenho semelhante ao dos transformers quando treinados com a mesma quantidade de tokens.
- Surge repetidamente a questão de saber se, no desempenho de avaliação do modelo, os dados são mais importantes do que a arquitetura exata.
- Ao comparar o custo computacional em CUDA entre arquiteturas baseadas em RWKV e modelos transformer, a escalabilidade linear versus quadrática é um ponto importante.
Construindo uma IA inclusiva para todos — não apenas em inglês
- Um feedback comum sobre a abordagem multilíngue do RWKV é que ela afeta as pontuações de avaliação em inglês e desacelera o avanço dos transformers lineares.
- No entanto, a equipe do RWKV não pretende mudar essa abordagem e quer construir uma IA para o mundo inteiro, não para um mundo que usa apenas inglês.
- Em 2023, apenas 17% da população mundial falava inglês.
- Ao oferecer suporte aos 25 principais idiomas e além, é possível cobrir cerca de 4 bilhões de pessoas, ou 50% da população mundial.
- A equipe do RWKV quer expandir o dataset multilíngue e aumentar o número de idiomas suportados para cobrir 100% do mundo.
Planos futuros
- Este lançamento representa o transformer linear mais poderoso até agora.
- Embora ainda não tenha superado LLaMA2 e Mistral, ele mostra que a arquitetura RWKV-v5 escala para um desempenho semelhante ao dos transformers com quantidades similares de tokens.
- Em fevereiro de 2024, o plano é publicar um artigo atualizado sobre o RWKV v5 e, em março, lançar um modelo MoE baseado no modelo v5 Eagle 2T e os modelos de mundo RWKV-v6 "Finch" 1.5B e 3B.
Agradecimentos
- Agradecimentos à StabilityAI por fornecer a maior parte da capacidade computacional para treinar este modelo base.
- Agradecimentos à EleutherAI pelo apoio generoso durante o processo de redação do artigo.
- Agradecimentos ao grupo Linux Foundation AI & Data, que apoia e hospeda o projeto RWKV.
Opinião do GN⁺:
- O Eagle 7B é um modelo transformer linear que oferece alto desempenho com custo eficiente e suporte a vários idiomas.
- Esse modelo pode contribuir para aumentar a acessibilidade da IA e reduzir seu impacto ambiental.
- A equipe do RWKV tem uma visão clara de desenvolver a tecnologia para que a IA apoie todas as pessoas no mundo e inclua todos os idiomas.
2 comentários
Usei rapidamente a demo ontem à noite, e achei bem rápida, além de entregar bons resultados. Também reconheceu e respondeu de forma natural em coreano e japonês.
Comentários do Hacker News
É interessante ver avanços em arquiteturas alternativas de LLMs (grandes modelos de linguagem), mas é uma pena que o artigo trate apenas da qualidade do modelo
A arquitetura do modelo — Transformer, Mamba, SSM, RWKV etc. — não é o mais importante; o impacto do conjunto de dados de treinamento é mais relevante
O RWKV-v5 Eagle 7B foi lançado sob licença Apache 2.0, podendo ser usado sem restrições para fins pessoais ou comerciais
No momento, o foco está principalmente em modelos de previsão do próximo token do tipo decoder-only
Pedido de explicação sobre como o modelo RWKV se compara aos modelos Transformer comuns e como os benchmarks devem ser interpretados
As informações sobre a quantidade de RAM necessária e a velocidade de processamento de tokens usando apenas CPU são incertas
Sugestão de consultar um membro do projeto que está respondendo perguntas no Reddit
Se você quiser experimentar o modelo RWKV sem esperar, recomenda-se usar rwkv-demo-api.recursal.ai
Expectativa em relação ao modelo MoE v5 Eagle 2T, previsto para março de 2024
Na experiência com o RWKV-4, a velocidade de inferência foi rápida, mas a tokenização era muito lenta