9 pontos por GN⁺ 2025-12-08 | 1 comentários | Compartilhar no WhatsApp
  • A arquitetura Titans e o framework MIRAS foi projetada para atualizar a memória principal da IA em tempo de execução, processando rapidamente contextos em larga escala
  • Titans combina a velocidade do RNN com a precisão do Transformer, armazenando de forma seletiva na memória de longo prazo informações com alta medida de surpresa (surprise)
  • MIRAS funciona como um plano teórico unificado para interpretar diversos modelos de sequência, sistematizando estrutura de memória, vieses, esquecimento e otimização
  • Em experimentos, o Titans e as variantes do MIRAS (YAAD, MONETA, MEMORA) mostraram desempenho superior em tratamento de contexto longo e eficiência em comparação com modelos recentes como Transformer++ e Mamba-2
  • Esta pesquisa mostra uma transição para uma nova geração de modelos de IA de contexto longo que combina a eficiência do RNN e a expressividade do Transformer

Visão geral de Titans e MIRAS

  • A arquitetura Titans e o framework MIRAS foram projetados para atualizar a memória em tempo real durante a execução e processar contextos de grande escala
    • O mecanismo de atenção (attention) dos Transformers existentes tem custo computacional que cresce rapidamente com o tamanho da sequência
    • Titans e MIRAS superam essa limitação, permitindo compreensão de contexto de longo prazo e adaptação em tempo real
  • Titans é a estrutura de modelo concreta, enquanto MIRAS é a blueprint teórica que a generaliza
    • Os dois sistemas desenvolvem o conceito de memorização no tempo de teste (test-time memorization) para integrar novas informações durante a execução sem retrain

Titans: aprendizagem de contexto em tempo real

  • Titans separa memória de curto prazo (mecanismo de atenção) e memória de longo prazo (módulo baseado em rede neural), imitando a estrutura de memória humana
    • O módulo de memória de longo prazo tem formato de multilayer perceptron (MLP), permitindo resumos de informação mais ricos com redes neurais profundas em vez de vetores fixos
  • O conceito central é a ‘métrica de surpresa (surprise metric)’
    • Quanto mais a entrada difere da memória existente, maior é a surpresa, e ela é armazenada na memória de longo prazo
    • Ex.: uma palavra esperada (‘cat’) tem baixa surpresa, enquanto uma entrada inesperada (‘banana peel’) é tratada com alta surpresa
  • Titans combina momentum (momentum) e decaimento de peso (weight decay)
    • O momentum reflete a continuidade do contexto recente e também armazena informações relacionadas
    • O decaimento de peso remove informações desnecessárias, mantendo a capacidade de memória de forma eficiente

MIRAS: uma visão integrada de modelos de sequência

  • MIRAS interpreta todos os modelos de sequência como um sistema de memória associativa (associative memory)
    • Define que diversos modelos resolvem, em essência, o mesmo problema de combinar eficientemente nova informação com memórias existentes
  • MIRAS define modelos por quatro elementos de projeto
    • Estrutura de memória: forma de armazenamento de informação (vetor, matriz, MLP etc.)
    • Viés de atenção: decide quais informações recebem prioridade
    • Porta de retenção (retention gate): mecanismo de regularização que controla o esquecimento
    • Algoritmo de memória: método para otimizar a atualização da memória
  • Em vez de depender de erro quadrático médio (MSE) ou similaridade por produto interno, o MIRAS explora funções objetivo e regularizações não euclidianas (non-Euclidean)

Modelos baseados em MIRAS

  • YAAD: estrutura menos sensível a erros de entrada ou outliers, usando Huber loss
  • MONETA: aplica normas generalizadas (generalized norms) para manter uma memória de longo prazo estável
  • MEMORA: impõe restrições probabilísticas à memória para garantir integração de informação equilibrada
  • Todos os três modelos alcançam forte desempenho de memória de longo prazo sem atenção

Resultados de experimentos e desempenho

  • As variantes Titans e MIRAS foram comparadas com arquiteturas recentes como Transformer++, Mamba-2 e Gated DeltaNet
    • Em modelagem de linguagem (C4, WikiText) e inferência zero-shot (HellaSwag, PIQA) alcançaram maior precisão e menor perplexidade
    • Também demonstraram desempenho de generalização em modelagem de DNA e previsão de séries temporais
  • A profundidade de memória (Depth) é decisiva para o desempenho
    • Mesmo com memória do mesmo tamanho, estruturas mais profundas alcançam menor perplexidade e melhor escalabilidade
  • Em termos de eficiência, Titans mantém aprendizado paralelo e velocidade de inferência linear, permitindo processamento mais rápido que modelos anteriores
  • No benchmark BABILong, o Titans apresenta desempenho superior em inferência de contexto longo com menos parâmetros do que o GPT-4
    • Processa eficientemente janelas de contexto de até mais de 2 milhões de tokens

Conclusão

  • Titans e MIRAS superam os limites do estado recorrente de tamanho fixo e apresentam uma nova estrutura de memória que aprende em tempo real durante a entrada de dados
  • MIRAS oferece uma estrutura teórica robusta que integra otimização online, memória associativa e projeto de arquitetura
  • Ao explorar espaços de projeto não euclidianos, estabelece a base para uma era de modelos de IA de contexto longo que combina a eficiência do RNN com a expressividade do Transformer

1 comentários

 
GN⁺ 2025-12-08
Comentários do Hacker News
  • Apresenta o artigo Titans: Learning to Memorize at Test Time
    O original está no link do arXiv

    • Fica a dúvida se existe outra empresa, além do Google, que publique pesquisa de IA nesse nível
      Os artigos relacionados podem ser vistos no primeiro e segundo links. Acha que o Google merece bastante confiança por essa transparência
      • Empresas chinesas como a DeepSeek também publicam muita pesquisa e de fato a validam por meio de modelos abertos
        Artigos de grandes laboratórios dos EUA muitas vezes se distanciam do desempenho prático. Cita este artigo e este artigo como exemplos da DeepSeek
      • Publicar artigos é ótimo, mas mesmo depois de 11 meses ainda não dá para baixar o código do modelo ou os pesos da arquitetura Titans
        Meta, Qwen e DeepSeek estão muito mais à frente nisso. No momento, só existe uma implementação não oficial
      • A Bytedance também vem publicando artigos de forma muito agressiva
        O projeto que mais chamou atenção recentemente foi o lumine, e compartilha o link do artigo e a página oficial de pesquisa
      • A Meta também vem compartilhando pesquisas publicamente, e recentemente empresas chinesas mostram uma tendência parecida
      • 80% do ecossistema já foi construído sobre pesquisas abertas por várias empresas e indivíduos
        Não acha que o Google tenha motivo para receber um crédito especialmente maior por isso
  • Faz a piada de que “finalmente criamos o ‘Torment Nexus’”
    Menciona que, no universo de Eclipse Phase, TITAN era a rede de IA que destruiu a humanidade

  • O núcleo da arquitetura Titans é usar sinais internos de erro (gradient) para julgar surpresa e importância, atualizando a memória de longo prazo com base nisso
    Fica a curiosidade se uma estrutura assim não poderia ser perturbada com entradas de ruído aleatório

    • É uma interpretação simplificada de como o Titans funciona
      O modelo aprende até durante a inferência e, na fase de treino, aprende ‘o que aprender’
      Entradas sem sentido recebem embeddings de baixa surpresa e quase não afetam o aprendizado
    • Na prática, qualquer IA pode ter seu comportamento quebrado por entradas aleatórias
    • Provavelmente os pesquisadores já perceberam esse problema desde o início, e esse mal-entendido parece surgir só em explicações superficiais
    • Assim como o sistema emocional (límbico) humano, acha que a IA também precisa de um mecanismo de memória baseado em emoção
      Humanos memorizam mais pela intensidade emocional do que pela novidade. A IA também precisaria ter um estado interno de “querer algo”
    • Assim como humanos presos em um ambiente de doutrinação podem repetir informações erradas, a IA também pode apresentar algo parecido se o fluxo de entrada for limitado
      Mas, em ambientes onde o contexto se mantém, como no desenvolvimento de codebases, ela poderia lembrar decisões de design e discussões passadas para tomar decisões melhores
  • Quando leu o artigo Titans pela primeira vez, sentiu que “isso vai ser um grande avanço”
    Não trabalha no setor de IA, mas há muito tempo pensa em IA com pensamento humanoide
    Os LLMs ficaram bem aquém desse critério, mas o Titans parece dar um passo nessa direção
    Gostaria de organizar essas ideias em um blog, mas não tem certeza se receberia atenção por não ser uma pessoa conhecida
    Ainda assim, acha que todo mundo vai se surpreender quando surgir uma implementação real do Titans

    • Se publicar no blog com consistência, pode acabar se tornando uma pessoa conhecida
    • Hoje em dia, textos sobre IA tendem a ficar presos demais aos detalhes técnicos
      Um texto que mostre o panorama geral pode trazer insights úteis
    • Sugere compartilhar esse texto no HN para receber feedback
  • Já escreveu um post de blog sobre Titans antes

    • Mas ainda não existe modelo pré-treinado
      Fora as afirmações do Google, não há implementação validada, e quase não existem estudos de acompanhamento
  • Fica a dúvida se a estrutura Titans seria mais ou menos vulnerável a prompt injection
    O aprendizado em tempo real pode aumentar a defesa, mas também pode fazer entradas maliciosas persistirem mais profundamente

  • Ao ler uma explicação sobre o mecanismo de attention do Transformer, ficou curioso sobre como IDEs como o Cursor gerenciam memória
    Parece que estão entendendo cada vez melhor a codebase e o contexto

    • Mas este artigo não tem relação com esse tipo de gerenciamento de memória em IDEs
      É apenas uma explicação de como funciona a janela de contexto do Transformer
  • Pergunta se dá para imaginar o Titans como uma estrutura que continua se adaptando, como o LoRA
    Se for o caso, haveria uma etapa de mesclar novamente o LoRA ao modelo principal? Isso seria como um processo de sono

    • O LoRA normalmente é um adaptador de baixa dimensão anexado externamente, então é diferente do Titans
      O Titans não tem esse tipo de estrutura de baixa dimensão
    • Em teoria, até daria para usar LoRA, mas por causa de limites de capacidade seria difícil substituir tudo
      Em vez disso, a ideia é treinar o MLP inteiro enquanto processa chunks de entrada
  • Fica a curiosidade se o aprendizado baseado em surpresa ajudaria a alinhar o modelo de forma mais precisa (alignment) aos prompts do usuário