- A arquitetura Titans e o framework MIRAS foi projetada para atualizar a memória principal da IA em tempo de execução, processando rapidamente contextos em larga escala
- Titans combina a velocidade do RNN com a precisão do Transformer, armazenando de forma seletiva na memória de longo prazo informações com alta medida de surpresa (surprise)
- MIRAS funciona como um plano teórico unificado para interpretar diversos modelos de sequência, sistematizando estrutura de memória, vieses, esquecimento e otimização
- Em experimentos, o Titans e as variantes do MIRAS (YAAD, MONETA, MEMORA) mostraram desempenho superior em tratamento de contexto longo e eficiência em comparação com modelos recentes como Transformer++ e Mamba-2
- Esta pesquisa mostra uma transição para uma nova geração de modelos de IA de contexto longo que combina a eficiência do RNN e a expressividade do Transformer
Visão geral de Titans e MIRAS
- A arquitetura Titans e o framework MIRAS foram projetados para atualizar a memória em tempo real durante a execução e processar contextos de grande escala
- O mecanismo de atenção (attention) dos Transformers existentes tem custo computacional que cresce rapidamente com o tamanho da sequência
- Titans e MIRAS superam essa limitação, permitindo compreensão de contexto de longo prazo e adaptação em tempo real
- Titans é a estrutura de modelo concreta, enquanto MIRAS é a blueprint teórica que a generaliza
- Os dois sistemas desenvolvem o conceito de memorização no tempo de teste (test-time memorization) para integrar novas informações durante a execução sem retrain
Titans: aprendizagem de contexto em tempo real
- Titans separa memória de curto prazo (mecanismo de atenção) e memória de longo prazo (módulo baseado em rede neural), imitando a estrutura de memória humana
- O módulo de memória de longo prazo tem formato de multilayer perceptron (MLP), permitindo resumos de informação mais ricos com redes neurais profundas em vez de vetores fixos
- O conceito central é a ‘métrica de surpresa (surprise metric)’
- Quanto mais a entrada difere da memória existente, maior é a surpresa, e ela é armazenada na memória de longo prazo
- Ex.: uma palavra esperada (‘cat’) tem baixa surpresa, enquanto uma entrada inesperada (‘banana peel’) é tratada com alta surpresa
- Titans combina momentum (momentum) e decaimento de peso (weight decay)
- O momentum reflete a continuidade do contexto recente e também armazena informações relacionadas
- O decaimento de peso remove informações desnecessárias, mantendo a capacidade de memória de forma eficiente
MIRAS: uma visão integrada de modelos de sequência
- MIRAS interpreta todos os modelos de sequência como um sistema de memória associativa (associative memory)
- Define que diversos modelos resolvem, em essência, o mesmo problema de combinar eficientemente nova informação com memórias existentes
- MIRAS define modelos por quatro elementos de projeto
- Estrutura de memória: forma de armazenamento de informação (vetor, matriz, MLP etc.)
- Viés de atenção: decide quais informações recebem prioridade
- Porta de retenção (retention gate): mecanismo de regularização que controla o esquecimento
- Algoritmo de memória: método para otimizar a atualização da memória
- Em vez de depender de erro quadrático médio (MSE) ou similaridade por produto interno, o MIRAS explora funções objetivo e regularizações não euclidianas (non-Euclidean)
Modelos baseados em MIRAS
- YAAD: estrutura menos sensível a erros de entrada ou outliers, usando Huber loss
- MONETA: aplica normas generalizadas (generalized norms) para manter uma memória de longo prazo estável
- MEMORA: impõe restrições probabilísticas à memória para garantir integração de informação equilibrada
- Todos os três modelos alcançam forte desempenho de memória de longo prazo sem atenção
Resultados de experimentos e desempenho
- As variantes Titans e MIRAS foram comparadas com arquiteturas recentes como Transformer++, Mamba-2 e Gated DeltaNet
- Em modelagem de linguagem (C4, WikiText) e inferência zero-shot (HellaSwag, PIQA) alcançaram maior precisão e menor perplexidade
- Também demonstraram desempenho de generalização em modelagem de DNA e previsão de séries temporais
- A profundidade de memória (Depth) é decisiva para o desempenho
- Mesmo com memória do mesmo tamanho, estruturas mais profundas alcançam menor perplexidade e melhor escalabilidade
- Em termos de eficiência, Titans mantém aprendizado paralelo e velocidade de inferência linear, permitindo processamento mais rápido que modelos anteriores
- No benchmark BABILong, o Titans apresenta desempenho superior em inferência de contexto longo com menos parâmetros do que o GPT-4
- Processa eficientemente janelas de contexto de até mais de 2 milhões de tokens
Conclusão
- Titans e MIRAS superam os limites do estado recorrente de tamanho fixo e apresentam uma nova estrutura de memória que aprende em tempo real durante a entrada de dados
- MIRAS oferece uma estrutura teórica robusta que integra otimização online, memória associativa e projeto de arquitetura
- Ao explorar espaços de projeto não euclidianos, estabelece a base para uma era de modelos de IA de contexto longo que combina a eficiência do RNN com a expressividade do Transformer
1 comentários
Comentários do Hacker News
Apresenta o artigo Titans: Learning to Memorize at Test Time
O original está no link do arXiv
Os artigos relacionados podem ser vistos no primeiro e segundo links. Acha que o Google merece bastante confiança por essa transparência
Artigos de grandes laboratórios dos EUA muitas vezes se distanciam do desempenho prático. Cita este artigo e este artigo como exemplos da DeepSeek
Meta, Qwen e DeepSeek estão muito mais à frente nisso. No momento, só existe uma implementação não oficial
O projeto que mais chamou atenção recentemente foi o lumine, e compartilha o link do artigo e a página oficial de pesquisa
Não acha que o Google tenha motivo para receber um crédito especialmente maior por isso
Faz a piada de que “finalmente criamos o ‘Torment Nexus’”
Menciona que, no universo de Eclipse Phase, TITAN era a rede de IA que destruiu a humanidade
O núcleo da arquitetura Titans é usar sinais internos de erro (gradient) para julgar surpresa e importância, atualizando a memória de longo prazo com base nisso
Fica a curiosidade se uma estrutura assim não poderia ser perturbada com entradas de ruído aleatório
O modelo aprende até durante a inferência e, na fase de treino, aprende ‘o que aprender’
Entradas sem sentido recebem embeddings de baixa surpresa e quase não afetam o aprendizado
Humanos memorizam mais pela intensidade emocional do que pela novidade. A IA também precisaria ter um estado interno de “querer algo”
Mas, em ambientes onde o contexto se mantém, como no desenvolvimento de codebases, ela poderia lembrar decisões de design e discussões passadas para tomar decisões melhores
Quando leu o artigo Titans pela primeira vez, sentiu que “isso vai ser um grande avanço”
Não trabalha no setor de IA, mas há muito tempo pensa em IA com pensamento humanoide
Os LLMs ficaram bem aquém desse critério, mas o Titans parece dar um passo nessa direção
Gostaria de organizar essas ideias em um blog, mas não tem certeza se receberia atenção por não ser uma pessoa conhecida
Ainda assim, acha que todo mundo vai se surpreender quando surgir uma implementação real do Titans
Um texto que mostre o panorama geral pode trazer insights úteis
Já escreveu um post de blog sobre Titans antes
Fora as afirmações do Google, não há implementação validada, e quase não existem estudos de acompanhamento
Fica a dúvida se a estrutura Titans seria mais ou menos vulnerável a prompt injection
O aprendizado em tempo real pode aumentar a defesa, mas também pode fazer entradas maliciosas persistirem mais profundamente
Ao ler uma explicação sobre o mecanismo de attention do Transformer, ficou curioso sobre como IDEs como o Cursor gerenciam memória
Parece que estão entendendo cada vez melhor a codebase e o contexto
É apenas uma explicação de como funciona a janela de contexto do Transformer
Pergunta se dá para imaginar o Titans como uma estrutura que continua se adaptando, como o LoRA
Se for o caso, haveria uma etapa de mesclar novamente o LoRA ao modelo principal? Isso seria como um processo de sono
O Titans não tem esse tipo de estrutura de baixa dimensão
Em vez disso, a ideia é treinar o MLP inteiro enquanto processa chunks de entrada
Fica a curiosidade se o aprendizado baseado em surpresa ajudaria a alinhar o modelo de forma mais precisa (alignment) aos prompts do usuário