Jamba - modelo de IA de nível de produção baseado em Mamba

xguru · 2024-03-30T09:46:02+09:00

A AI21 Labs lançou o Jamba, o primeiro modelo de IA de nível de produção do mundo baseado na arquitetura Mamba O Jamba combina os pontos fortes do Mamba SSM (Structured State Space Model) e da arquitetura Transformer tradicional para oferecer desempenho impressionante e ganhos de eficiência Ampla janela de contexto de 256K tokens. Processa até 140K tokens em uma única GPU de 80GB Arquitetura híbrida e desempenho do Jamba O Jamba utiliza camadas de Mixture of Experts (MoE) por meio de uma arquitetura híbrida SSM-Transformer, usando apenas 12B dos 52B parâmetros durante a inferência Consegue lidar com contextos muito mais longos do que modelos concorrentes como o Llama 2 da Meta, mantendo alta taxa de processamento e eficiência Oferece throughput 3 vezes maior em contextos longos, sendo mais eficiente do que modelos baseados em Transformer de tamanho semelhante Adota uma abordagem de blocos e camadas, em que cada bloco do Jamba contém uma camada de atenção ou Mamba, seguida por um perceptron multicamadas (MLP) Nessa estrutura, uma camada Transformer é usada a cada 8 camadas no total Mostra resultados excelentes em vários benchmarks e supera ou iguala o desempenho dos modelos mais recentes do mesmo porte em uma ampla gama de tarefas Licença O Jamba foi lançado com pesos abertos sob a licença Apache 2.0 e está disponível no Hugging Face No momento, o Jamba foi lançado como um modelo de pesquisa, sem os mecanismos de segurança necessários para uso comercial, mas a AI21 Labs planeja lançar uma versão mais segura nas próximas semanas

(maginative.com)

11 pontos por xguru 2024-03-30 | 1 comentários | Compartilhar no WhatsApp

A AI21 Labs lançou o Jamba, o primeiro modelo de IA de nível de produção do mundo baseado na arquitetura Mamba
O Jamba combina os pontos fortes do Mamba SSM (Structured State Space Model) e da arquitetura Transformer tradicional para oferecer desempenho impressionante e ganhos de eficiência
Ampla janela de contexto de 256K tokens. Processa até 140K tokens em uma única GPU de 80GB

Arquitetura híbrida e desempenho do Jamba

O Jamba utiliza camadas de Mixture of Experts (MoE) por meio de uma arquitetura híbrida SSM-Transformer, usando apenas 12B dos 52B parâmetros durante a inferência
Consegue lidar com contextos muito mais longos do que modelos concorrentes como o Llama 2 da Meta, mantendo alta taxa de processamento e eficiência
Oferece throughput 3 vezes maior em contextos longos, sendo mais eficiente do que modelos baseados em Transformer de tamanho semelhante
Adota uma abordagem de blocos e camadas, em que cada bloco do Jamba contém uma camada de atenção ou Mamba, seguida por um perceptron multicamadas (MLP)
Nessa estrutura, uma camada Transformer é usada a cada 8 camadas no total
Mostra resultados excelentes em vários benchmarks e supera ou iguala o desempenho dos modelos mais recentes do mesmo porte em uma ampla gama de tarefas

Licença

O Jamba foi lançado com pesos abertos sob a licença Apache 2.0 e está disponível no Hugging Face
No momento, o Jamba foi lançado como um modelo de pesquisa, sem os mecanismos de segurança necessários para uso comercial, mas a AI21 Labs planeja lançar uma versão mais segura nas próximas semanas

1 comentários

xguru 2024-03-30

Comentários do Hacker News

Compartilhamento de links para threads recentes com explicações sobre o Mamba
- Dois links foram fornecidos: a thread explicando o Mamba e uma thread melhor.
Recomendação de um vídeo do Sasha Rush para quem tem curiosidade sobre os trade-offs entre camadas de transformer e modelos de espaço de estados
- O vídeo do Sasha Rush ajuda a entender as diferenças entre camadas de transformer e de modelos de espaço de estados.
Compartilhamento de problemas relacionados à tentativa de fazê-lo funcionar no Linux com uma ou duas GPUs 4090
- Ao usar GPUs 4090 no Linux, surgiram problemas durante o carregamento do checkpoint; a VRAM parecia suficiente, mas ainda assim falhou. Há interesse nessa tentativa.
Boas-vindas ao surgimento de um modelo completo em nível de produção usando Mamba, com interesse tanto no desempenho quanto no throughput em benchmarks de janela de contexto longa
- A impressão é que, ao usar contexto longo, o Mamba aumenta bastante o throughput, mas perde um pouco em precisão.
Observação sobre a ineficiência dos LLMs (Large Language Models)
- Menciona-se a ineficiência de LLMs que exigem 80 GB de memória de GPU, com a esperança de que ainda haja bastante espaço para melhorias algorítmicas.
Questionamento sobre a necessidade de camadas de self-attention
- Pergunta-se por que incluir camadas de self-attention, em vez de apenas alternar camadas SSM e MLP.
Explicação sobre a melhoria de desempenho do modelo Jamba-v0.1-hybrid-MoE
- A opinião é que o modelo Jamba-v0.1-hybrid-MoE oferece contexto mais longo, maior velocidade e custo mais baixo do que modelos anteriores, e colocará um ponto final na ideia de que “um único modelo domina tudo”.
Apontamento sobre o problema de duplicidade do nome Mamba
- Destaca-se a importância da escolha do nome, já que Mamba já é usado por um pacote popular de Python.
Menção ao nome Sparabo e comentário divertido sobre nomes antigos sendo ligados a coisas novas
- Pergunta-se se o nome Sparabo existe e comenta-se como é curioso ver nomes antigos sendo usados para coisas novas.
Menção de que o trabalho com contexto longo está relacionado ao MemGPT, com a sugestão de que um conceito semelhante também poderia ser aplicado a modelos com arquitetura Mamba
- Cita-se o trabalho de contexto longo relacionado ao MemGPT e sugere-se que algo parecido talvez possa ser aplicado também a modelos com arquitetura Mamba.