Eagle 7B - O modelo que superou os Transformers

(blog.rwkv.com)

6 pontos por GN⁺ 2024-01-30 | 2 comentários | Compartilhar no WhatsApp

Modelo de 7.52B de parâmetros baseado na arquitetura RWKV-v5
O modelo 7B mais ecológico do mundo, com baixo custo por token
Treinado com 1,1 trilhão de tokens em mais de 100 idiomas
Supera todos os modelos da classe 7B em benchmarks multilíngues
Em avaliações em inglês, aproxima-se do nível de desempenho de Falcon (1.5T), LLaMA2 (2T) e Mistral (>2T?)
Modelo fundacional com ajuste de instruções muito pequeno, exigindo fine-tuning para diversos casos de uso
Um transformer sem necessidade de Attention
Licenciado sob Apache 2.0, podendo ser usado sem restrições para fins pessoais ou comerciais

Detalhes do desempenho multilíngue

O desempenho multilíngue foi avaliado em 23 idiomas no total, usando xLAMBDA, xStoryCloze, xWinograd, xCopa e outros.
Esses benchmarks tratam de raciocínio de senso comum em cada idioma.
A mudança da arquitetura RWKV v4 para v5 melhorou significativamente o desempenho multilíngue.
Como há escassez de benchmarks multilíngues, é difícil avaliar diretamente o desempenho linguístico do modelo nos mais de 75 idiomas restantes entre os mais de 100 em que foi treinado.

Detalhes do desempenho em inglês

O desempenho em inglês foi medido por meio de 12 benchmarks separados que tratam de raciocínio de senso comum e conhecimento geral do mundo.
A mudança da arquitetura RWKV v4 para v5 melhorou significativamente o desempenho em inglês.
O modelo v5 está em linha com o nível de desempenho esperado de transformers para o volume de tokens de treinamento fornecido.
Espera-se que, com mais 1 trilhão de tokens de treinamento, ele alcance o nível do LLaMA2 e se aproxime do nível do Mistral.

Bom dataset + arquitetura escalável: todo mundo precisa disso?

O checkpoint no marco de 300 bilhões de tokens mostra desempenho semelhante ao pythia-6.9b.
Em linha com experimentos anteriores na arquitetura RWKV-v4, transformers lineares como o RWKV escalam para um nível de desempenho semelhante ao dos transformers quando treinados com a mesma quantidade de tokens.
Surge repetidamente a questão de saber se, no desempenho de avaliação do modelo, os dados são mais importantes do que a arquitetura exata.
Ao comparar o custo computacional em CUDA entre arquiteturas baseadas em RWKV e modelos transformer, a escalabilidade linear versus quadrática é um ponto importante.

Construindo uma IA inclusiva para todos — não apenas em inglês

Um feedback comum sobre a abordagem multilíngue do RWKV é que ela afeta as pontuações de avaliação em inglês e desacelera o avanço dos transformers lineares.
No entanto, a equipe do RWKV não pretende mudar essa abordagem e quer construir uma IA para o mundo inteiro, não para um mundo que usa apenas inglês.
Em 2023, apenas 17% da população mundial falava inglês.
Ao oferecer suporte aos 25 principais idiomas e além, é possível cobrir cerca de 4 bilhões de pessoas, ou 50% da população mundial.
A equipe do RWKV quer expandir o dataset multilíngue e aumentar o número de idiomas suportados para cobrir 100% do mundo.

Planos futuros

Este lançamento representa o transformer linear mais poderoso até agora.
Embora ainda não tenha superado LLaMA2 e Mistral, ele mostra que a arquitetura RWKV-v5 escala para um desempenho semelhante ao dos transformers com quantidades similares de tokens.
Em fevereiro de 2024, o plano é publicar um artigo atualizado sobre o RWKV v5 e, em março, lançar um modelo MoE baseado no modelo v5 Eagle 2T e os modelos de mundo RWKV-v6 "Finch" 1.5B e 3B.

Agradecimentos

Agradecimentos à StabilityAI por fornecer a maior parte da capacidade computacional para treinar este modelo base.
Agradecimentos à EleutherAI pelo apoio generoso durante o processo de redação do artigo.
Agradecimentos ao grupo Linux Foundation AI & Data, que apoia e hospeda o projeto RWKV.

Opinião do GN⁺:

O Eagle 7B é um modelo transformer linear que oferece alto desempenho com custo eficiente e suporte a vários idiomas.
Esse modelo pode contribuir para aumentar a acessibilidade da IA e reduzir seu impacto ambiental.
A equipe do RWKV tem uma visão clara de desenvolver a tecnologia para que a IA apoie todas as pessoas no mundo e inclua todos os idiomas.

2 comentários

cosine20 2024-01-31

Usei rapidamente a demo ontem à noite, e achei bem rápida, além de entregar bons resultados. Também reconheceu e respondeu de forma natural em coreano e japonês.

GN⁺ 2024-01-30

Comentários do Hacker News

É interessante ver avanços em arquiteturas alternativas de LLMs (grandes modelos de linguagem), mas é uma pena que o artigo trate apenas da qualidade do modelo
- Como o artigo termina de forma abrupta, falta motivação para adotar a nova arquitetura
- É necessária uma discussão sobre desempenho e tamanho de contexto
- Foi decepcionante que o artigo não mencionasse contexto
- O gráfico do RWKV-4 foi reutilizado, mas não está claro o que ele mostra
A arquitetura do modelo — Transformer, Mamba, SSM, RWKV etc. — não é o mais importante; o impacto do conjunto de dados de treinamento é mais relevante
- Os dados de linguagem são um repositório da experiência humana, e o fato de a IA adquirir várias capacidades por meio deles sugere que a inteligência não está limitada apenas ao cérebro
O RWKV-v5 Eagle 7B foi lançado sob licença Apache 2.0, podendo ser usado sem restrições para fins pessoais ou comerciais
- É positivo que a equipe tenha definido os incentivos certos para testes e adoção
No momento, o foco está principalmente em modelos de previsão do próximo token do tipo decoder-only
- Os encoders de BERT e T5 ainda são úteis para gerar embeddings para tarefas de busca ou classificação
- É preciso mais pesquisa sobre arquiteturas de pré-treinamento melhores para casos de uso com embeddings
Pedido de explicação sobre como o modelo RWKV se compara aos modelos Transformer comuns e como os benchmarks devem ser interpretados
- Parece ter desempenho semelhante ao Mistral 7B/mistral-tiny
As informações sobre a quantidade de RAM necessária e a velocidade de processamento de tokens usando apenas CPU são incertas
Sugestão de consultar um membro do projeto que está respondendo perguntas no Reddit
- Link para o usuário do Reddit correspondente
Se você quiser experimentar o modelo RWKV sem esperar, recomenda-se usar rwkv-demo-api.recursal.ai
Expectativa em relação ao modelo MoE v5 Eagle 2T, previsto para março de 2024
- Espera-se um equilíbrio entre desempenho e custo ambiental/por token
- Também há expectativa de melhorias para os idiomas escandinavos, mas ainda é preciso ver os resultados
- O reconhecimento do valor dos dados de treinamento e da estrutura e equilíbrio do conteúdo para um treinamento ideal trará a verdadeira revolução
Na experiência com o RWKV-4, a velocidade de inferência foi rápida, mas a tokenização era muito lenta
- São necessárias orientações mais específicas sobre o RWKV-5