- O Zamba2-7B alcança SOTA em benchmarks de avaliação e eficiência de inferência em comparação com os principais modelos atuais de 7B, como Mistral-7B, Gemma-7B e Llama3-8B
- O Zamba2-7B é 25% mais rápido até a geração do primeiro token, aumenta em 20% o número de tokens por segundo e reduz significativamente o uso de memória em relação ao Llama3-8B e outros, mostrando excelente eficiência de inferência
Melhorias de arquitetura do Zamba2-7B em relação ao Zamba1-7B
- Os blocos Mamba1 foram substituídos por blocos Mamba2
- Em vez de um único bloco de atenção compartilhado, usa 2 blocos de atenção compartilhados intercalados por toda a rede em um padrão ABAB
- Um projetor LoRA é aplicado a cada bloco MLP compartilhado, permitindo especializar o MLP em cada chamada de camada compartilhada conforme a profundidade
- Os pesos do modelo foram disponibilizados como open source sob licença Apache 2.0
Desempenho do Zamba2-7B nos conjuntos de avaliação de modelagem de linguagem
- O Zamba2 mostra desempenho muito forte nos conjuntos padrão de avaliação de modelagem de linguagem ao considerar latência e velocidade de geração
- Lidera entre os pequenos modelos de linguagem com até 8B tanto em qualidade quanto em desempenho
Por que o Zamba2-7B supera os modelos SOTA existentes
- A nova arquitetura de atenção compartilhada permite alocar mais parâmetros ao backbone Mamba2. Os blocos Transformer compartilhados preservam as ricas dependências entre sequências das operações de atenção
- O dataset de pré-treinamento de 3 trilhões de tokens é composto por uma combinação do Zyda com datasets públicos filtrados e deduplicados de forma ativa, alcançando a mais alta qualidade em relação aos principais datasets open source de pré-treinamento existentes
- Em uma etapa separada de pré-treinamento de "annealing", a taxa de aprendizado foi reduzida drasticamente ao longo de 100 bilhões de tokens de alta qualidade. O conjunto de annealing foi coletado de diversas fontes de alta qualidade e teve sua qualidade rigidamente controlada
Graças à excelente qualidade dos datasets de pré-treinamento e annealing, o Zamba2-7B apresenta desempenho muito forte por token de treinamento e se posiciona confortavelmente muito acima da curva desenhada pelos modelos concorrentes
Arquitetura híbrida SSM-attention do Zamba
- O Zamba2-7B aproveita e expande a arquitetura híbrida SSM-attention original do Zamba
- A arquitetura central do Zamba consiste em um backbone de camadas Mamba intercaladas com uma ou mais camadas de atenção compartilhadas (o Zamba1 usa 1, o Zamba2 usa 2 atenções compartilhadas)
- Essa atenção usa pesos compartilhados para minimizar o custo de parâmetros do modelo
- Conectar os embeddings originais do modelo de entrada a esses blocos de atenção aparentemente melhora a retenção de informação ao longo da profundidade e melhora o desempenho
- A arquitetura Zamba2 ganha expressividade adicional ao aplicar matrizes de projeção LoRA aos MLPs compartilhados, permitindo que cada bloco se especialize ligeiramente em sua posição específica enquanto mantém baixo o overhead de parâmetros
Fatores para atingir eficiência de inferência SOTA
- Os blocos Mamba2 são muito eficientes e oferecem throughput cerca de 4 vezes maior do que blocos Transformer com a mesma quantidade de parâmetros
- Os blocos Mamba precisam apenas de um pequeno estado oculto para armazenar e não exigem KV-cache, então o estado KV só precisa ser armazenado para as chamadas dos blocos de atenção compartilhados
- O tamanho do modelo foi escolhido para se adequar muito bem à paralelização em hardware moderno (por exemplo, vários streaming multiprocessors na GPU e múltiplos núcleos na CPU)
Treinamento e lançamento do Zamba2-7B
- O Zamba2-7B foi treinado por cerca de 50 dias em 128 GPUs H100 usando um framework interno de treinamento desenvolvido com base no Megatron-LM
- O Zamba2-7B mostra que, na escala 7B, até equipes pequenas com orçamento razoável podem alcançar e superar o estado da arte
- Foi lançado sob licença open source para que pesquisadores, desenvolvedores e empresas possam aproveitar suas capacidades
- A expectativa é que a comunidade de IA explore a arquitetura única do Zamba e continue expandindo os limites dos foundation models eficientes
Modelos Zamba2-7B lançados:
- Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
- Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
- Pure PyTorch: https://github.com/Zyphra/Zamba2
Visão da Zyphra
- A equipe da Zyphra está comprometida com a democratização de sistemas avançados de IA, a exploração de novas arquiteturas na fronteira do desempenho e o avanço da pesquisa científica e do entendimento sobre modelos poderosos
- Espera colaborar com outras pessoas que compartilham essa visão
Opinião do GN⁺
- O fato de a Zyphra ter lançado o Zamba2 como open source é muito significativo. Isso deve contribuir para a democratização da tecnologia de IA ao permitir que qualquer pessoa use e pesquise gratuitamente um modelo de linguagem de ponta
- A nova arquitetura do Zamba2 aponta um caminho para superar as limitações dos modelos tradicionais baseados em Transformer e criar modelos de linguagem mais eficientes. Ideias únicas do Zamba, como atenção compartilhada e projeções LoRA, parecem capazes de inspirar as futuras pesquisas em modelos de linguagem
- Também é animador que até equipes de pequeno e médio porte possam usar hardware moderno para criar grandes modelos de linguagem com desempenho SOTA. Espera-se que o desenvolvimento de foundation models se torne ainda mais ativo com a participação de organizações diversas
- Ainda será preciso observar como o desempenho do Zamba2 se manifesta em aplicações reais. Pontuações excelentes em benchmark não se traduzem automaticamente em tarefas do mundo real. Será importante que profissionais de várias áreas experimentem o Zamba2 e compartilhem suas vantagens e limitações
1 comentários
Opiniões no Hacker News
Compartilha o link para quem estiver procurando os pesos que não estavam vinculados no artigo
Fica a curiosidade se o ganho de desempenho vem da melhora do dataset ou da arquitetura. Isso provavelmente exigiria experimentos caros
Há cansaço com lançamentos de LLM usando benchmarks de forma seletiva. Há curiosidade sobre a comparação com os atuais SOTA qwen2.5/phi3.5
É bom ver mais modelos com licença Apache, especialmente junto com arquiteturas variadas
Em comparação com o volume de trabalho teórico sobre blocos Mamba2, o ganho de desempenho parece bem pequeno
Há curiosidade, ao usar duas cabeças de attention, se cada uma delas foca em aspectos diferentes dos dados
Há curiosidade sobre o que torna 7B algo especial. Pergunta por que não 8B, 9B ou 11.234B. Também questiona se 7B seria interpretado como uma potência de 2
Mais um dia, mais um recorde mundial sendo batido em IA
Pergunta se alguém tem ideia de quais idiomas esse modelo suporta