6 pontos por GN⁺ 2024-01-30 | 2 comentários | Compartilhar no WhatsApp
  • Modelo de 7.52B de parâmetros baseado na arquitetura RWKV-v5
  • O modelo 7B mais ecológico do mundo, com baixo custo por token
  • Treinado com 1,1 trilhão de tokens em mais de 100 idiomas
  • Supera todos os modelos da classe 7B em benchmarks multilíngues
  • Em avaliações em inglês, aproxima-se do nível de desempenho de Falcon (1.5T), LLaMA2 (2T) e Mistral (>2T?)
  • Modelo fundacional com ajuste de instruções muito pequeno, exigindo fine-tuning para diversos casos de uso
  • Um transformer sem necessidade de Attention
  • Licenciado sob Apache 2.0, podendo ser usado sem restrições para fins pessoais ou comerciais

Detalhes do desempenho multilíngue

  • O desempenho multilíngue foi avaliado em 23 idiomas no total, usando xLAMBDA, xStoryCloze, xWinograd, xCopa e outros.
  • Esses benchmarks tratam de raciocínio de senso comum em cada idioma.
  • A mudança da arquitetura RWKV v4 para v5 melhorou significativamente o desempenho multilíngue.
  • Como há escassez de benchmarks multilíngues, é difícil avaliar diretamente o desempenho linguístico do modelo nos mais de 75 idiomas restantes entre os mais de 100 em que foi treinado.

Detalhes do desempenho em inglês

  • O desempenho em inglês foi medido por meio de 12 benchmarks separados que tratam de raciocínio de senso comum e conhecimento geral do mundo.
  • A mudança da arquitetura RWKV v4 para v5 melhorou significativamente o desempenho em inglês.
  • O modelo v5 está em linha com o nível de desempenho esperado de transformers para o volume de tokens de treinamento fornecido.
  • Espera-se que, com mais 1 trilhão de tokens de treinamento, ele alcance o nível do LLaMA2 e se aproxime do nível do Mistral.

Bom dataset + arquitetura escalável: todo mundo precisa disso?

  • O checkpoint no marco de 300 bilhões de tokens mostra desempenho semelhante ao pythia-6.9b.
  • Em linha com experimentos anteriores na arquitetura RWKV-v4, transformers lineares como o RWKV escalam para um nível de desempenho semelhante ao dos transformers quando treinados com a mesma quantidade de tokens.
  • Surge repetidamente a questão de saber se, no desempenho de avaliação do modelo, os dados são mais importantes do que a arquitetura exata.
  • Ao comparar o custo computacional em CUDA entre arquiteturas baseadas em RWKV e modelos transformer, a escalabilidade linear versus quadrática é um ponto importante.

Construindo uma IA inclusiva para todos — não apenas em inglês

  • Um feedback comum sobre a abordagem multilíngue do RWKV é que ela afeta as pontuações de avaliação em inglês e desacelera o avanço dos transformers lineares.
  • No entanto, a equipe do RWKV não pretende mudar essa abordagem e quer construir uma IA para o mundo inteiro, não para um mundo que usa apenas inglês.
  • Em 2023, apenas 17% da população mundial falava inglês.
  • Ao oferecer suporte aos 25 principais idiomas e além, é possível cobrir cerca de 4 bilhões de pessoas, ou 50% da população mundial.
  • A equipe do RWKV quer expandir o dataset multilíngue e aumentar o número de idiomas suportados para cobrir 100% do mundo.

Planos futuros

  • Este lançamento representa o transformer linear mais poderoso até agora.
  • Embora ainda não tenha superado LLaMA2 e Mistral, ele mostra que a arquitetura RWKV-v5 escala para um desempenho semelhante ao dos transformers com quantidades similares de tokens.
  • Em fevereiro de 2024, o plano é publicar um artigo atualizado sobre o RWKV v5 e, em março, lançar um modelo MoE baseado no modelo v5 Eagle 2T e os modelos de mundo RWKV-v6 "Finch" 1.5B e 3B.

Agradecimentos

  • Agradecimentos à StabilityAI por fornecer a maior parte da capacidade computacional para treinar este modelo base.
  • Agradecimentos à EleutherAI pelo apoio generoso durante o processo de redação do artigo.
  • Agradecimentos ao grupo Linux Foundation AI & Data, que apoia e hospeda o projeto RWKV.

Opinião do GN⁺:

  • O Eagle 7B é um modelo transformer linear que oferece alto desempenho com custo eficiente e suporte a vários idiomas.
  • Esse modelo pode contribuir para aumentar a acessibilidade da IA e reduzir seu impacto ambiental.
  • A equipe do RWKV tem uma visão clara de desenvolver a tecnologia para que a IA apoie todas as pessoas no mundo e inclua todos os idiomas.

2 comentários

 
cosine20 2024-01-31

Usei rapidamente a demo ontem à noite, e achei bem rápida, além de entregar bons resultados. Também reconheceu e respondeu de forma natural em coreano e japonês.

 
GN⁺ 2024-01-30
Comentários do Hacker News
  • É interessante ver avanços em arquiteturas alternativas de LLMs (grandes modelos de linguagem), mas é uma pena que o artigo trate apenas da qualidade do modelo

    • Como o artigo termina de forma abrupta, falta motivação para adotar a nova arquitetura
    • É necessária uma discussão sobre desempenho e tamanho de contexto
    • Foi decepcionante que o artigo não mencionasse contexto
    • O gráfico do RWKV-4 foi reutilizado, mas não está claro o que ele mostra
  • A arquitetura do modelo — Transformer, Mamba, SSM, RWKV etc. — não é o mais importante; o impacto do conjunto de dados de treinamento é mais relevante

    • Os dados de linguagem são um repositório da experiência humana, e o fato de a IA adquirir várias capacidades por meio deles sugere que a inteligência não está limitada apenas ao cérebro
  • O RWKV-v5 Eagle 7B foi lançado sob licença Apache 2.0, podendo ser usado sem restrições para fins pessoais ou comerciais

    • É positivo que a equipe tenha definido os incentivos certos para testes e adoção
  • No momento, o foco está principalmente em modelos de previsão do próximo token do tipo decoder-only

    • Os encoders de BERT e T5 ainda são úteis para gerar embeddings para tarefas de busca ou classificação
    • É preciso mais pesquisa sobre arquiteturas de pré-treinamento melhores para casos de uso com embeddings
  • Pedido de explicação sobre como o modelo RWKV se compara aos modelos Transformer comuns e como os benchmarks devem ser interpretados

    • Parece ter desempenho semelhante ao Mistral 7B/mistral-tiny
  • As informações sobre a quantidade de RAM necessária e a velocidade de processamento de tokens usando apenas CPU são incertas

  • Sugestão de consultar um membro do projeto que está respondendo perguntas no Reddit

    • Link para o usuário do Reddit correspondente
  • Se você quiser experimentar o modelo RWKV sem esperar, recomenda-se usar rwkv-demo-api.recursal.ai

  • Expectativa em relação ao modelo MoE v5 Eagle 2T, previsto para março de 2024

    • Espera-se um equilíbrio entre desempenho e custo ambiental/por token
    • Também há expectativa de melhorias para os idiomas escandinavos, mas ainda é preciso ver os resultados
    • O reconhecimento do valor dos dados de treinamento e da estrutura e equilíbrio do conteúdo para um treinamento ideal trará a verdadeira revolução
  • Na experiência com o RWKV-4, a velocidade de inferência foi rápida, mas a tokenização era muito lenta

    • São necessárias orientações mais específicas sobre o RWKV-5