1 pontos por GN⁺ 2024-07-18 | 1 comentários | Compartilhar no WhatsApp

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • Nos últimos anos, modelos baseados em Transformers mostraram desempenho notável em previsão multivariada de séries temporais de longo prazo (LTSF). No entanto, eles enfrentam problemas como alta demanda computacional, dificuldade em capturar dinâmicas temporais e gerenciamento de dependências de longo prazo
  • Com o surgimento do LTSF-Linear, com sua estrutura linear simples, foi demonstrado um desempenho superior ao dos modelos baseados em Transformers, o que levou a uma reavaliação da utilidade dos Transformers em previsão de séries temporais
  • Em resposta a isso, este artigo apresenta os resultados da aplicação da arquitetura recente xLSTM (extended LSTM) ao LTSF. O xLSTM tem potencial para se adequar ao LTSF por incluir exponential gating e uma estrutura de memória modificada com maior capacidade
  • O xLSTMTime, a arquitetura de LTSF adotada por nós, supera as abordagens atuais. A comparação do desempenho entre vários modelos de ponta e o xLSTMTime em diversos conjuntos de dados do mundo real demonstra sua excelente capacidade de previsão
  • Nossos resultados sugerem que arquiteturas recorrentes refinadas podem oferecer uma alternativa competitiva aos modelos baseados em Transformers em tarefas de LTSF, com potencial para redefinir o cenário da previsão de séries temporais

Resumo do GN⁺

  • Este artigo introduz o xLSTM para superar as limitações dos modelos baseados em Transformers e mostra desempenho superior em previsão de séries temporais de longo prazo
  • O xLSTMTime demonstra capacidade de previsão superior aos modelos existentes por meio de exponential gating e de uma estrutura de memória modificada
  • Este estudo volta a destacar o potencial das arquiteturas recorrentes em previsão de séries temporais e apresenta uma nova alternativa aos modelos baseados em Transformers
  • Projetos com funcionalidades semelhantes incluem o Prophet, do Facebook, e o DeepAR, da Amazon

1 comentários

 
GN⁺ 2024-07-18
Comentários do Hacker News
  • É verdade que, nos últimos anos, modelos baseados em transformers ganharam atenção em previsões multivariadas de séries temporais de longo prazo, mas é discutível se eles são, em geral, melhores do que modelos não baseados em deep learning
    Pelo que eu entendia, não era bem assim, embora eu não acompanhe essa área tão de perto

    • Pela minha experiência com previsão de pagamentos/gastos, deep learning em geral teve desempenho inferior a árvores de gradient boosting
      Modelos de deep learning são fortes para aprender sazonalidade, mas tendem a lidar mal com tendências complexas ou choques
      Dados econômicos e financeiros muitas vezes têm sazonalidade simples e tendências complexas, então parece que deep learning acaba indo bem mal
      Concordo com este artigo. As boas arquiteturas de deep learning para séries temporais que eu usei eram mais próximas de extensões simples de MLPs ou redes neurais recorrentes, como DeepAR ou N-BEATS, e arquiteturas baseadas em transformers foram realmente péssimas, especialmente incluindo os modelos fundacionais baseados em transformers que estão surgindo aos montes ultimamente
    • Em trabalho com segurança aérea, deep learning foi melhor do que modelos tradicionais não baseados em deep learning em previsão multivariada de séries temporais
      Ainda assim, mesmo entre os modelos de deep learning, havia diferenças de desempenho muito grandes entre transformers, LSTM bidirecional, MLP comum, VAE etc.
    • Não usei diretamente, mas conversei sobre isso recentemente com um amigo que vem usando modelos baseados em árvores como XGBoost em análise de séries temporais
      Segundo ele, arquiteturas baseadas em transformers costumam entregar desempenho razoável em tarefas de séries temporais com relativamente pouco esforço, em comparação com modelos de árvore
      Pelo que entendi, com ajuste suficiente de parâmetros, modelos baseados em árvores normalmente conseguem superar transformers. Mas modelos como TimeGPT têm a vantagem de dar um desempenho aceitável sem muito ajuste, então são atraentes para implementações rápidas
    • Isso é mencionado no parágrafo logo depois no artigo. xLSTMTime também não é baseado em transformers
    • Não era algo extraordinário, mas tentativas recentes de transfer learning pareciam promissoras
  • Parte do meu trabalho é justamente construir modelos reais de nowcasting e previsão na área de economia. Lido com indicadores econômicos como inflação e PIB, além de indicadores financeiros como liquidez de mercado
    Ainda não consegui ler o artigo, mas concordo totalmente com o tom geral de que “transformers são excelentes no que fazem bem, mas modelos da família LSTM ainda têm muito valor”

    • Você já teve a chance de aplicar Mamba no seu trabalho? Queria saber sua opinião
  • Isso tem alguma relação com os modelos de previsão do tempo baseados em IA do Google?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • Não. Graphcast é um graph transformer treinado com dados de reanálise atmosférica ERA5, não um modelo geral de previsão de séries temporais
      Como referência, o Graphcast supera pelo menos todas as previsões globais tradicionais de execução única quando se trata de prever padrões globais em grande escala, em janelas de atraso de cerca de 3 a 10 dias em métricas como Z500
      O ECMWF tem o AIFS, derivado do Graphcast, e há uma boa chance de que ele ou algo parecido entre em operação nos próximos anos
  • Se isso está sendo divulgado como ferramenta de previsão, então não se aplica à classificação de eventos em séries temporais?

    • Eu diria que isso é uma tarefa um pouco diferente. Não sou especialista na área, mas se o número n de eventos for muito pequeno, talvez dê para tratar como um problema de previsão multivariada, usando a probabilidade de cada evento como alvo
    • Também fico curioso sobre onde essa abordagem, ou abordagens baseadas em transformers/LLMs, melhoram coisas como detecção de anomalias, por exemplo
  • É uma pena que o link do dataset no artigo não funcione. Seria bom se corrigissem

  • Os melhores modelos de deep learning para séries temporais provavelmente estão dentro de hedge funds, sem divulgação pública

    • Na verdade, a maior parte do trabalho difícil não está em um grande modelo único, mas em feature engineering. Até onde sei, gradient boosting ainda domina
    • Por causa do teorema do no free lunch, em geral não existe algo como o melhor modelo
      O que funciona em hedge funds pode depender da quantidade e da natureza dos dados, e pode ser ruim em outras áreas onde o viés indutivo necessário é menor ou diferente
    • Eu diria que, pelo menos os hedge funds mais avançados, nem usam mais modelagem de séries temporais. Pelos padrões atuais, isso já está bem ultrapassado
  • Previsão de séries temporais funciona melhor em domínios determinísticos
    Não existe nenhuma técnica pública de LLM, IA, deep learning ou machine learning que funcione bem para o mercado de ações. Nenhuma mesmo. Já tentei todas

  • Se o método de previsão de séries temporais de alguém realmente funcionasse, essa pessoa não o teria publicado

    • Não necessariamente. Na verdade, muita coisa é publicada. A esmagadora maioria do trabalho com séries temporais não tem nada a ver com preços de ativos ou superar retornos do mercado de ações
    • O modelo Transformer também foi um dos modelos mais bem-sucedidos da história da IA e foi publicado em artigo
  • Eu li isso errado como XSLT

    • Cliquei porque fiquei curioso sobre quão interessante poderia ser um post sobre XML em 2024, e ao mesmo tempo fiquei decepcionado e satisfeito
    • Sim, e isto também é um post sobre transformação
    • Eu também. Será que estou ficando velho?
  • Estou ansioso pelo dia em que alguém vai tentar usar isso para prever ações e perder todo o dinheiro que tem