11 pontos por xguru 2024-03-30 | 1 comentários | Compartilhar no WhatsApp
  • A AI21 Labs lançou o Jamba, o primeiro modelo de IA de nível de produção do mundo baseado na arquitetura Mamba
  • O Jamba combina os pontos fortes do Mamba SSM (Structured State Space Model) e da arquitetura Transformer tradicional para oferecer desempenho impressionante e ganhos de eficiência
  • Ampla janela de contexto de 256K tokens. Processa até 140K tokens em uma única GPU de 80GB

Arquitetura híbrida e desempenho do Jamba

  • O Jamba utiliza camadas de Mixture of Experts (MoE) por meio de uma arquitetura híbrida SSM-Transformer, usando apenas 12B dos 52B parâmetros durante a inferência
  • Consegue lidar com contextos muito mais longos do que modelos concorrentes como o Llama 2 da Meta, mantendo alta taxa de processamento e eficiência
  • Oferece throughput 3 vezes maior em contextos longos, sendo mais eficiente do que modelos baseados em Transformer de tamanho semelhante
  • Adota uma abordagem de blocos e camadas, em que cada bloco do Jamba contém uma camada de atenção ou Mamba, seguida por um perceptron multicamadas (MLP)
  • Nessa estrutura, uma camada Transformer é usada a cada 8 camadas no total
  • Mostra resultados excelentes em vários benchmarks e supera ou iguala o desempenho dos modelos mais recentes do mesmo porte em uma ampla gama de tarefas

Licença

  • O Jamba foi lançado com pesos abertos sob a licença Apache 2.0 e está disponível no Hugging Face
  • No momento, o Jamba foi lançado como um modelo de pesquisa, sem os mecanismos de segurança necessários para uso comercial, mas a AI21 Labs planeja lançar uma versão mais segura nas próximas semanas

1 comentários

 
xguru 2024-03-30

Comentários do Hacker News

  • Compartilhamento de links para threads recentes com explicações sobre o Mamba
  • Recomendação de um vídeo do Sasha Rush para quem tem curiosidade sobre os trade-offs entre camadas de transformer e modelos de espaço de estados
    • O vídeo do Sasha Rush ajuda a entender as diferenças entre camadas de transformer e de modelos de espaço de estados.
  • Compartilhamento de problemas relacionados à tentativa de fazê-lo funcionar no Linux com uma ou duas GPUs 4090
    • Ao usar GPUs 4090 no Linux, surgiram problemas durante o carregamento do checkpoint; a VRAM parecia suficiente, mas ainda assim falhou. Há interesse nessa tentativa.
  • Boas-vindas ao surgimento de um modelo completo em nível de produção usando Mamba, com interesse tanto no desempenho quanto no throughput em benchmarks de janela de contexto longa
    • A impressão é que, ao usar contexto longo, o Mamba aumenta bastante o throughput, mas perde um pouco em precisão.
  • Observação sobre a ineficiência dos LLMs (Large Language Models)
    • Menciona-se a ineficiência de LLMs que exigem 80 GB de memória de GPU, com a esperança de que ainda haja bastante espaço para melhorias algorítmicas.
  • Questionamento sobre a necessidade de camadas de self-attention
    • Pergunta-se por que incluir camadas de self-attention, em vez de apenas alternar camadas SSM e MLP.
  • Explicação sobre a melhoria de desempenho do modelo Jamba-v0.1-hybrid-MoE
    • A opinião é que o modelo Jamba-v0.1-hybrid-MoE oferece contexto mais longo, maior velocidade e custo mais baixo do que modelos anteriores, e colocará um ponto final na ideia de que “um único modelo domina tudo”.
  • Apontamento sobre o problema de duplicidade do nome Mamba
    • Destaca-se a importância da escolha do nome, já que Mamba já é usado por um pacote popular de Python.
  • Menção ao nome Sparabo e comentário divertido sobre nomes antigos sendo ligados a coisas novas
    • Pergunta-se se o nome Sparabo existe e comenta-se como é curioso ver nomes antigos sendo usados para coisas novas.
  • Menção de que o trabalho com contexto longo está relacionado ao MemGPT, com a sugestão de que um conceito semelhante também poderia ser aplicado a modelos com arquitetura Mamba
    • Cita-se o trabalho de contexto longo relacionado ao MemGPT e sugere-se que algo parecido talvez possa ser aplicado também a modelos com arquitetura Mamba.