Zyphra revela o Zamba2-7B, um pequeno modelo de linguagem que supera o Llama3

(zyphra.com)

7 pontos por GN⁺ 2024-10-16 | 1 comentários | Compartilhar no WhatsApp

O Zamba2-7B alcança SOTA em benchmarks de avaliação e eficiência de inferência em comparação com os principais modelos atuais de 7B, como Mistral-7B, Gemma-7B e Llama3-8B
O Zamba2-7B é 25% mais rápido até a geração do primeiro token, aumenta em 20% o número de tokens por segundo e reduz significativamente o uso de memória em relação ao Llama3-8B e outros, mostrando excelente eficiência de inferência

Melhorias de arquitetura do Zamba2-7B em relação ao Zamba1-7B

Os blocos Mamba1 foram substituídos por blocos Mamba2
Em vez de um único bloco de atenção compartilhado, usa 2 blocos de atenção compartilhados intercalados por toda a rede em um padrão ABAB
Um projetor LoRA é aplicado a cada bloco MLP compartilhado, permitindo especializar o MLP em cada chamada de camada compartilhada conforme a profundidade
Os pesos do modelo foram disponibilizados como open source sob licença Apache 2.0

Desempenho do Zamba2-7B nos conjuntos de avaliação de modelagem de linguagem

O Zamba2 mostra desempenho muito forte nos conjuntos padrão de avaliação de modelagem de linguagem ao considerar latência e velocidade de geração
Lidera entre os pequenos modelos de linguagem com até 8B tanto em qualidade quanto em desempenho

Por que o Zamba2-7B supera os modelos SOTA existentes

A nova arquitetura de atenção compartilhada permite alocar mais parâmetros ao backbone Mamba2. Os blocos Transformer compartilhados preservam as ricas dependências entre sequências das operações de atenção
O dataset de pré-treinamento de 3 trilhões de tokens é composto por uma combinação do Zyda com datasets públicos filtrados e deduplicados de forma ativa, alcançando a mais alta qualidade em relação aos principais datasets open source de pré-treinamento existentes
Em uma etapa separada de pré-treinamento de "annealing", a taxa de aprendizado foi reduzida drasticamente ao longo de 100 bilhões de tokens de alta qualidade. O conjunto de annealing foi coletado de diversas fontes de alta qualidade e teve sua qualidade rigidamente controlada

Graças à excelente qualidade dos datasets de pré-treinamento e annealing, o Zamba2-7B apresenta desempenho muito forte por token de treinamento e se posiciona confortavelmente muito acima da curva desenhada pelos modelos concorrentes

Arquitetura híbrida SSM-attention do Zamba

O Zamba2-7B aproveita e expande a arquitetura híbrida SSM-attention original do Zamba
A arquitetura central do Zamba consiste em um backbone de camadas Mamba intercaladas com uma ou mais camadas de atenção compartilhadas (o Zamba1 usa 1, o Zamba2 usa 2 atenções compartilhadas)
Essa atenção usa pesos compartilhados para minimizar o custo de parâmetros do modelo
Conectar os embeddings originais do modelo de entrada a esses blocos de atenção aparentemente melhora a retenção de informação ao longo da profundidade e melhora o desempenho
A arquitetura Zamba2 ganha expressividade adicional ao aplicar matrizes de projeção LoRA aos MLPs compartilhados, permitindo que cada bloco se especialize ligeiramente em sua posição específica enquanto mantém baixo o overhead de parâmetros

Fatores para atingir eficiência de inferência SOTA

Os blocos Mamba2 são muito eficientes e oferecem throughput cerca de 4 vezes maior do que blocos Transformer com a mesma quantidade de parâmetros
Os blocos Mamba precisam apenas de um pequeno estado oculto para armazenar e não exigem KV-cache, então o estado KV só precisa ser armazenado para as chamadas dos blocos de atenção compartilhados
O tamanho do modelo foi escolhido para se adequar muito bem à paralelização em hardware moderno (por exemplo, vários streaming multiprocessors na GPU e múltiplos núcleos na CPU)

Treinamento e lançamento do Zamba2-7B

O Zamba2-7B foi treinado por cerca de 50 dias em 128 GPUs H100 usando um framework interno de treinamento desenvolvido com base no Megatron-LM
O Zamba2-7B mostra que, na escala 7B, até equipes pequenas com orçamento razoável podem alcançar e superar o estado da arte
Foi lançado sob licença open source para que pesquisadores, desenvolvedores e empresas possam aproveitar suas capacidades
A expectativa é que a comunidade de IA explore a arquitetura única do Zamba e continue expandindo os limites dos foundation models eficientes

Modelos Zamba2-7B lançados:

Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
Pure PyTorch: https://github.com/Zyphra/Zamba2

Visão da Zyphra

A equipe da Zyphra está comprometida com a democratização de sistemas avançados de IA, a exploração de novas arquiteturas na fronteira do desempenho e o avanço da pesquisa científica e do entendimento sobre modelos poderosos
Espera colaborar com outras pessoas que compartilham essa visão

Opinião do GN⁺

O fato de a Zyphra ter lançado o Zamba2 como open source é muito significativo. Isso deve contribuir para a democratização da tecnologia de IA ao permitir que qualquer pessoa use e pesquise gratuitamente um modelo de linguagem de ponta
A nova arquitetura do Zamba2 aponta um caminho para superar as limitações dos modelos tradicionais baseados em Transformer e criar modelos de linguagem mais eficientes. Ideias únicas do Zamba, como atenção compartilhada e projeções LoRA, parecem capazes de inspirar as futuras pesquisas em modelos de linguagem
Também é animador que até equipes de pequeno e médio porte possam usar hardware moderno para criar grandes modelos de linguagem com desempenho SOTA. Espera-se que o desenvolvimento de foundation models se torne ainda mais ativo com a participação de organizações diversas
Ainda será preciso observar como o desempenho do Zamba2 se manifesta em aplicações reais. Pontuações excelentes em benchmark não se traduzem automaticamente em tarefas do mundo real. Será importante que profissionais de várias áreas experimentem o Zamba2 e compartilhem suas vantagens e limitações

1 comentários

GN⁺ 2024-10-16

Opiniões no Hacker News

Compartilha o link para quem estiver procurando os pesos que não estavam vinculados no artigo
- modelo base: Zyphra/Zamba2-7B
- ajuste Instruct: Zyphra/Zamba2-7B-Instruct
Fica a curiosidade se o ganho de desempenho vem da melhora do dataset ou da arquitetura. Isso provavelmente exigiria experimentos caros
Há cansaço com lançamentos de LLM usando benchmarks de forma seletiva. Há curiosidade sobre a comparação com os atuais SOTA qwen2.5/phi3.5
- Pergunta se alguém conhece um leaderboard independente recente. O Lmsys e o livebench têm pulado a maioria dos principais modelos mais recentes
É bom ver mais modelos com licença Apache, especialmente junto com arquiteturas variadas
Em comparação com o volume de trabalho teórico sobre blocos Mamba2, o ganho de desempenho parece bem pequeno
- attention ainda continua importante
Há curiosidade, ao usar duas cabeças de attention, se cada uma delas foca em aspectos diferentes dos dados
- Em estudos de memória existe o conceito de representação dupla de eventos. Uma é mais precisa, e a outra é mais ponderada pelo contexto
- Em LLMs, dá para imaginar um sistema em que uma cabeça de attention se concentra em representações exatas e a outra em informações mais grosseiras. Mas não há certeza se isso é só uma analogia simplista, por falta de conhecimento mais profundo sobre LLMs
Há curiosidade sobre o que torna 7B algo especial. Pergunta por que não 8B, 9B ou 11.234B. Também questiona se 7B seria interpretado como uma potência de 2
Mais um dia, mais um recorde mundial sendo batido em IA
- Isso faz lembrar Sergey Bubka, que quebrou o recorde mundial masculino do salto com vara 35 vezes
Pergunta se alguém tem ideia de quais idiomas esse modelo suporta