Arquitetura Titans da Google facilita a formação de memória de longo prazo em IA

(research.google)

9 pontos por GN⁺ 2025-12-08 | 1 comentários | Compartilhar no WhatsApp

A arquitetura Titans e o framework MIRAS foi projetada para atualizar a memória principal da IA em tempo de execução, processando rapidamente contextos em larga escala
Titans combina a velocidade do RNN com a precisão do Transformer, armazenando de forma seletiva na memória de longo prazo informações com alta medida de surpresa (surprise)
MIRAS funciona como um plano teórico unificado para interpretar diversos modelos de sequência, sistematizando estrutura de memória, vieses, esquecimento e otimização
Em experimentos, o Titans e as variantes do MIRAS (YAAD, MONETA, MEMORA) mostraram desempenho superior em tratamento de contexto longo e eficiência em comparação com modelos recentes como Transformer++ e Mamba-2
Esta pesquisa mostra uma transição para uma nova geração de modelos de IA de contexto longo que combina a eficiência do RNN e a expressividade do Transformer

Visão geral de Titans e MIRAS

A arquitetura Titans e o framework MIRAS foram projetados para atualizar a memória em tempo real durante a execução e processar contextos de grande escala
- O mecanismo de atenção (attention) dos Transformers existentes tem custo computacional que cresce rapidamente com o tamanho da sequência
- Titans e MIRAS superam essa limitação, permitindo compreensão de contexto de longo prazo e adaptação em tempo real
Titans é a estrutura de modelo concreta, enquanto MIRAS é a blueprint teórica que a generaliza
- Os dois sistemas desenvolvem o conceito de memorização no tempo de teste (test-time memorization) para integrar novas informações durante a execução sem retrain

Titans: aprendizagem de contexto em tempo real

Titans separa memória de curto prazo (mecanismo de atenção) e memória de longo prazo (módulo baseado em rede neural), imitando a estrutura de memória humana
- O módulo de memória de longo prazo tem formato de multilayer perceptron (MLP), permitindo resumos de informação mais ricos com redes neurais profundas em vez de vetores fixos
O conceito central é a ‘métrica de surpresa (surprise metric)’
- Quanto mais a entrada difere da memória existente, maior é a surpresa, e ela é armazenada na memória de longo prazo
- Ex.: uma palavra esperada (‘cat’) tem baixa surpresa, enquanto uma entrada inesperada (‘banana peel’) é tratada com alta surpresa
Titans combina momentum (momentum) e decaimento de peso (weight decay)
- O momentum reflete a continuidade do contexto recente e também armazena informações relacionadas
- O decaimento de peso remove informações desnecessárias, mantendo a capacidade de memória de forma eficiente

MIRAS: uma visão integrada de modelos de sequência

MIRAS interpreta todos os modelos de sequência como um sistema de memória associativa (associative memory)
- Define que diversos modelos resolvem, em essência, o mesmo problema de combinar eficientemente nova informação com memórias existentes
MIRAS define modelos por quatro elementos de projeto
- Estrutura de memória: forma de armazenamento de informação (vetor, matriz, MLP etc.)
- Viés de atenção: decide quais informações recebem prioridade
- Porta de retenção (retention gate): mecanismo de regularização que controla o esquecimento
- Algoritmo de memória: método para otimizar a atualização da memória
Em vez de depender de erro quadrático médio (MSE) ou similaridade por produto interno, o MIRAS explora funções objetivo e regularizações não euclidianas (non-Euclidean)

Modelos baseados em MIRAS

YAAD: estrutura menos sensível a erros de entrada ou outliers, usando Huber loss
MONETA: aplica normas generalizadas (generalized norms) para manter uma memória de longo prazo estável
MEMORA: impõe restrições probabilísticas à memória para garantir integração de informação equilibrada
Todos os três modelos alcançam forte desempenho de memória de longo prazo sem atenção

Resultados de experimentos e desempenho

As variantes Titans e MIRAS foram comparadas com arquiteturas recentes como Transformer++, Mamba-2 e Gated DeltaNet
- Em modelagem de linguagem (C4, WikiText) e inferência zero-shot (HellaSwag, PIQA) alcançaram maior precisão e menor perplexidade
- Também demonstraram desempenho de generalização em modelagem de DNA e previsão de séries temporais
A profundidade de memória (Depth) é decisiva para o desempenho
- Mesmo com memória do mesmo tamanho, estruturas mais profundas alcançam menor perplexidade e melhor escalabilidade
Em termos de eficiência, Titans mantém aprendizado paralelo e velocidade de inferência linear, permitindo processamento mais rápido que modelos anteriores
No benchmark BABILong, o Titans apresenta desempenho superior em inferência de contexto longo com menos parâmetros do que o GPT-4
- Processa eficientemente janelas de contexto de até mais de 2 milhões de tokens

Conclusão

Titans e MIRAS superam os limites do estado recorrente de tamanho fixo e apresentam uma nova estrutura de memória que aprende em tempo real durante a entrada de dados
MIRAS oferece uma estrutura teórica robusta que integra otimização online, memória associativa e projeto de arquitetura
Ao explorar espaços de projeto não euclidianos, estabelece a base para uma era de modelos de IA de contexto longo que combina a eficiência do RNN com a expressividade do Transformer

1 comentários

GN⁺ 2025-12-08

Comentários do Hacker News

Apresenta o artigo Titans: Learning to Memorize at Test Time
O original está no link do arXiv
- Fica a dúvida se existe outra empresa, além do Google, que publique pesquisa de IA nesse nível
  Os artigos relacionados podem ser vistos no primeiro e segundo links. Acha que o Google merece bastante confiança por essa transparência
  - Empresas chinesas como a DeepSeek também publicam muita pesquisa e de fato a validam por meio de modelos abertos
    Artigos de grandes laboratórios dos EUA muitas vezes se distanciam do desempenho prático. Cita este artigo e este artigo como exemplos da DeepSeek
  - Publicar artigos é ótimo, mas mesmo depois de 11 meses ainda não dá para baixar o código do modelo ou os pesos da arquitetura Titans
    Meta, Qwen e DeepSeek estão muito mais à frente nisso. No momento, só existe uma implementação não oficial
  - A Bytedance também vem publicando artigos de forma muito agressiva
    O projeto que mais chamou atenção recentemente foi o lumine, e compartilha o link do artigo e a página oficial de pesquisa
  - A Meta também vem compartilhando pesquisas publicamente, e recentemente empresas chinesas mostram uma tendência parecida
  - 80% do ecossistema já foi construído sobre pesquisas abertas por várias empresas e indivíduos
    Não acha que o Google tenha motivo para receber um crédito especialmente maior por isso
Faz a piada de que “finalmente criamos o ‘Torment Nexus’”
Menciona que, no universo de Eclipse Phase, TITAN era a rede de IA que destruiu a humanidade
O núcleo da arquitetura Titans é usar sinais internos de erro (gradient) para julgar surpresa e importância, atualizando a memória de longo prazo com base nisso
Fica a curiosidade se uma estrutura assim não poderia ser perturbada com entradas de ruído aleatório
- É uma interpretação simplificada de como o Titans funciona
  O modelo aprende até durante a inferência e, na fase de treino, aprende ‘o que aprender’
  Entradas sem sentido recebem embeddings de baixa surpresa e quase não afetam o aprendizado
- Na prática, qualquer IA pode ter seu comportamento quebrado por entradas aleatórias
- Provavelmente os pesquisadores já perceberam esse problema desde o início, e esse mal-entendido parece surgir só em explicações superficiais
- Assim como o sistema emocional (límbico) humano, acha que a IA também precisa de um mecanismo de memória baseado em emoção
  Humanos memorizam mais pela intensidade emocional do que pela novidade. A IA também precisaria ter um estado interno de “querer algo”
- Assim como humanos presos em um ambiente de doutrinação podem repetir informações erradas, a IA também pode apresentar algo parecido se o fluxo de entrada for limitado
  Mas, em ambientes onde o contexto se mantém, como no desenvolvimento de codebases, ela poderia lembrar decisões de design e discussões passadas para tomar decisões melhores
Quando leu o artigo Titans pela primeira vez, sentiu que “isso vai ser um grande avanço”
Não trabalha no setor de IA, mas há muito tempo pensa em IA com pensamento humanoide
Os LLMs ficaram bem aquém desse critério, mas o Titans parece dar um passo nessa direção
Gostaria de organizar essas ideias em um blog, mas não tem certeza se receberia atenção por não ser uma pessoa conhecida
Ainda assim, acha que todo mundo vai se surpreender quando surgir uma implementação real do Titans
- Se publicar no blog com consistência, pode acabar se tornando uma pessoa conhecida
- Hoje em dia, textos sobre IA tendem a ficar presos demais aos detalhes técnicos
  Um texto que mostre o panorama geral pode trazer insights úteis
- Sugere compartilhar esse texto no HN para receber feedback
Já escreveu um post de blog sobre Titans antes
- Mas ainda não existe modelo pré-treinado
  Fora as afirmações do Google, não há implementação validada, e quase não existem estudos de acompanhamento
Fica a dúvida se a estrutura Titans seria mais ou menos vulnerável a prompt injection
O aprendizado em tempo real pode aumentar a defesa, mas também pode fazer entradas maliciosas persistirem mais profundamente
Ao ler uma explicação sobre o mecanismo de attention do Transformer, ficou curioso sobre como IDEs como o Cursor gerenciam memória
Parece que estão entendendo cada vez melhor a codebase e o contexto
- Mas este artigo não tem relação com esse tipo de gerenciamento de memória em IDEs
  É apenas uma explicação de como funciona a janela de contexto do Transformer
Pergunta se dá para imaginar o Titans como uma estrutura que continua se adaptando, como o LoRA
Se for o caso, haveria uma etapa de mesclar novamente o LoRA ao modelo principal? Isso seria como um processo de sono
- O LoRA normalmente é um adaptador de baixa dimensão anexado externamente, então é diferente do Titans
  O Titans não tem esse tipo de estrutura de baixa dimensão
- Em teoria, até daria para usar LoRA, mas por causa de limites de capacidade seria difícil substituir tudo
  Em vez disso, a ideia é treinar o MLP inteiro enquanto processa chunks de entrada
Fica a curiosidade se o aprendizado baseado em surpresa ajudaria a alinhar o modelo de forma mais precisa (alignment) aos prompts do usuário

Arquitetura Titans da Google facilita a formação de memória de longo prazo em IA

Visão geral de Titans e MIRAS

Titans: aprendizagem de contexto em tempo real

MIRAS: uma visão integrada de modelos de sequência

Modelos baseados em MIRAS

Resultados de experimentos e desempenho

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News