11 pontos por GN⁺ 2024-02-27 | Ainda não há comentários. | Compartilhar no WhatsApp

Mamba é um modelo de espaço de estados (State Space Model) que desafia os Transformers

  • A IA atualmente domina o mundo, e os Transformers estão no centro disso
  • Mamba pertence a uma classe alternativa de modelos chamada modelos de espaço de estados (SSM)
  • Mamba oferece desempenho e escalabilidade semelhantes aos dos Transformers, mas consegue operar com sequências longas
  • Um ponto de destaque é que o Mamba elimina o "gargalo quadrático" do "mecanismo de atenção", permitindo contextos longos
  • Mamba roda até 5 vezes mais rápido que os Transformers

Problemas dos Transformers - atenção sozinha pode não ser suficiente

  • Nos Transformers, cada token pode consultar todos os tokens anteriores, o que faz o modelo ficar mais lento à medida que o contexto cresce
  • O armazenamento desse cache KV também exige complexidade espacial O(n)
  • Existem técnicas para aliviar os gargalos dos Transformers atuais, mas uma solução fundamental exige uma abordagem diferente

Backbone de modelos fundacionais

  • Dois componentes importantes de um bom backbone de arquitetura de ML
    • Comunicação (Communication) entre tokens
    • Computação (Computation) dentro dos tokens
  • Um bloco Transformer é composto por Attention e MLPs
  • O Mamba usa SSMs inspirados na teoria de controle para comunicação e mantém projeções no estilo MLP para computação

Motivação do Mamba - voltando ao Temple Run

  • Estado (state) se refere às variáveis necessárias para determinar o comportamento futuro de um sistema
  • O estado é uma compressão de tudo o que é preciso saber sobre o passado, convertendo-se em um processo de decisão de Markov

Discretização - vivendo em um mundo quantizado

  • O processo de converter equações diferenciais em tempo contínuo em equações de diferenças em tempo discreto é chamado de discretização (discretisation)
  • O Mamba usa discretização zero-order hold (ZOH)

Entendendo as matrizes do SSM

  • As matrizes A, B, C e D são responsáveis por transição de estado, mapeamento de novas entradas para o estado, mapeamento do estado para a saída do SSM e passagem de novas entradas diretamente para a saída

Eficiência vs. efetividade: Attention is Focus, Selectivity is Prioritisation (atenção é foco, seletividade é priorização)

  • Os Transformers são muito efetivos, mas não são eficientes
  • A arquitetura Mamba oferece uma solução que empurra a fronteira de Pareto entre eficiência e efetividade

Mecanismo de seletividade

  • Seletividade (Selectivity) permite converter cada token em um estado de acordo com sua necessidade
  • O Mamba torna as matrizes A, B e C funções de x, tornando-as dependentes do contexto em vez de estáticas

Problemas da seletividade

  • Ao aplicar o mecanismo de seletividade, o cálculo pode ficar mais lento do que em SSMs não seletivos
  • Com otimização de hardware, o Mamba pode rodar mais rápido do que Transformers de tamanho semelhante

Machine learning e economia política - qual deve ser o tamanho do estado?

  • O trade-off entre eficiência e efetividade em modelos de sequência é caracterizado por quão bem o estado comprime a informação
  • A representação do estado é importante, e comprimir o estado de forma seletiva e dinâmica é o ponto central

Fluxo de informação em Transformers vs. Mamba

  • Os Transformers aprendem por meio dos dados de treinamento e dos dados de contexto
  • No Mamba, os dados de treinamento e de contexto ficam acessíveis de forma comprimida/filtrada

Substituição de estado como um novo paradigma de prompting

  • Com modelos como o Mamba, é possível compartilhar bibliotecas de estados gerados a partir de dados especializados
  • Os estados podem aplicar aprendizado de contexto infinito em tempo de inferência sem backprop

Mamba e interpretabilidade mecanística

  • A interpretabilidade do Mamba se concentra em entender como a informação se move entre tokens

O que vem a seguir para Mamba e SSMs

  • Modelos como o Mamba provavelmente terão ótimo desempenho em cenários que exigem contextos muito longos e memória de longo prazo

Agentes e segurança em IA

  • Modelos de linguagem são inerentemente seguros, mas a possibilidade de raciocínio sequencial de longo prazo reacende a importância da segurança em IA baseada em agentes

A melhor colaboração entre Transformers e Mamba

  • Vale a pena combinar o contexto longo do Mamba com a alta resolução dos Transformers para sequências curtas

Opinião do GN⁺

  • O Mamba resolve gargalos dos Transformers e apresenta uma alternativa eficaz para processar sequências longas
  • Essa tecnologia pode ser especialmente útil em áreas nas quais sequências longas de dados são importantes, como medicina, genética e processamento de linguagem natural
  • Mais pesquisas são necessárias para verificar se o mecanismo de seletividade do Mamba é realmente eficaz
  • A seletividade do Mamba pode ajudar a encontrar um equilíbrio entre a alta precisão oferecida pelos Transformers e a eficiência

Ainda não há comentários.

Ainda não há comentários.