- Modelos fundacionais existentes lidam com texto, imagem, áudio e vídeo, mas carecem de capacidade de raciocínio temporal sobre dados de séries temporais que movem o mundo real (sinais vitais, preços, telemetria, logs etc.)
- Time Series Language Models (TSLMs) oferecem suporte a séries temporais como uma modalidade nativa equivalente ao texto, permitindo que usuários façam perguntas em linguagem natural e recebam explicações e recomendações
- OpenTSLM é um novo modelo de linguagem projetado para processar em conjunto dados de séries temporais e texto clínico na área médica
- Adota uma arquitetura de cross-attention, o que permite escalar mesmo com séries temporais longas e, ao contrário de abordagens anteriores, torna a operação em grande escala prática
- Duas estruturas são propostas: SoftPrompt (insere a série temporal como tokens) e Flamingo (baseado em atenção cruzada), cada uma com vantagens e desvantagens diferentes
- Introduz três novos datasets de Chain-of-Thought (CoT) (HAR, Sleep, ECG-QA) para avaliar o desempenho de raciocínio do modelo
- Em comparação com o GPT-4o, um modelo 200 vezes menor alcançou 4,4 vezes mais precisão na classificação de estágios do sono, 6 vezes mais em reconhecimento de atividade e 2 vezes mais em interpretação de ECG (com eficiência respectivamente 880, 1.000 e 400 vezes maior)
- Pela primeira vez na área médica, faz o processamento simultâneo de sinais de ECG de 12 derivações e texto, oferecendo raciocínio chain-of-thought validado por cardiologistas
- Processa simultaneamente múltiplas séries temporais de comprimento variável e as integra ao contexto textual para gerar explicações interpretáveis verificadas por especialistas do domínio
- O estudo sugere potencial de expansão não apenas para a medicina, mas também para diversas aplicações de séries temporais como finanças, cadeia de suprimentos e monitoramento industrial
Visão geral da pesquisa
- Diagnóstico e tratamento clínicos se baseiam essencialmente na compreensão de mudanças ao longo do tempo
- LLMs existentes conseguem lidar com várias modalidades, como imagem, texto e voz, mas não tinham boa capacidade de interpretar dados contínuos de séries temporais
- Para resolver isso, o OpenTSLM propõe integrar dados de séries temporais como uma nova modalidade nativa de LLM
Arquitetura do modelo
- OpenTSLM-SoftPrompt
- Faz embedding da série temporal e a insere junto com os tokens de texto
- É simples e eficiente em parâmetros, mas em sequências longas tem a limitação de aumentar drasticamente o uso de memória
- OpenTSLM-Flamingo
- Processa a série temporal como uma modalidade separada e a combina com o texto por meio de cross-attention
- Mantém uso de memória estável mesmo em sequências longas e é adequado para processamento mais geral
Datasets e treinamento
- HAR-CoT: reconhecimento de atividade humana com sensor de aceleração
- Sleep-CoT: classificação de estágios do sono baseada em EEG
- ECG-QA-CoT: perguntas e respostas com uso de dados de eletrocardiograma
- Foi aplicado aprendizado curricular em etapas, expandindo do aprendizado de padrões simples de séries temporais para o aprendizado de capacidade de raciocínio
Principais resultados
- SoftPrompt-Llama3.2-1B: registrou 69,9% de F1 no Sleep-CoT e 65,4% de F1 no HAR-CoT
- Flamingo-Llama3.2-3B: apresentou o melhor desempenho no ECG-QA-CoT com 40,25% de F1
- Desempenho superior ao GPT-4o: até mesmo o modelo menor (OpenTSLM-1B) registrou pontuação F1 mais alta que o GPT-4o
- Avaliação médica: 92,9% do processo de raciocínio no ECG-QA foi considerado uma interpretação correta ou parcialmente correta
Eficiência de memória
- O SoftPrompt faz o VRAM crescer exponencialmente conforme o comprimento da entrada (ex.: no ECG-QA, requer mais de 110GB)
- O Flamingo mantém uso de memória estável (na faixa de 60~70GB mesmo com Llama-3B)
Discussão
- O OpenTSLM mostra que modelos pequenos podem superar modelos extremamente grandes
- O SoftPrompt é adequado para séries temporais curtas, enquanto o Flamingo é mais apropriado para séries temporais longas/múltiplas
- Em dados médicos, fornece transparência no processo de raciocínio, contribuindo para a confiança
- Diferentemente de abordagens baseadas em classificadores, concretiza a combinação entre raciocínio em linguagem natural e séries temporais
Limitações e próximos desafios
- A forma atual de preservar escala e unidade das séries temporais em texto pode não ser ideal
- Como o GPT-4o participou do processo de criação do dataset CoT, existe possibilidade de viés nos dados
- É necessário projetar funções de perda que garantam previsão correta, simplificar a arquitetura e verificar o desempenho de generalização
Conclusão
- O OpenTSLM tem alto potencial de uso além da medicina, inclusive em processamento de dados de longo prazo em finanças, cadeia de suprimentos e monitoramento industrial
- Este estudo estabelece a base do conceito de Time Series Language Model (TSLM) e busca expandi-lo para um modelo geral de raciocínio sobre séries temporais
1 comentários
Comentários no Hacker News
Entendo a parte de poder interagir com dados de séries temporais por meio de linguagem natural, mas fico me perguntando qual seria a vantagem disso em comparação com usar bibliotecas de processamento de sinais ou algoritmos baseados em regras (ou machine learning, se os dados forem variáveis) via chamada de ferramenta
Por exemplo, pedir para um LLM comercial analisar dados de ECG, e então o LLM chamar uma biblioteca de análise de séries temporais de ECG
Essa biblioteca processaria todo o conjunto de dados e extrairia estatísticas e eventos — por exemplo: “frequência cardíaca média de 60 bpm, AFib detectada em determinado momento”
Assim, o LLM conseguiria todas as informações necessárias para a análise, com um custo computacional muito menor
Além disso, essa abordagem exige grandes conjuntos de dados anotados e modelos pré-treinados; me corrijam se eu estiver errado, mas acho impossível existir um modelo de uso geral capaz de lidar com dados de séries temporais “genéricos”
Ou seja, um modelo treinado com dados de ECG não seria compatível com dados do mercado de ações
Ainda não é possível ter um único modelo que entenda todos esses tipos diferentes de dados
É difícil rodar esse tipo de sistema na edge
O ponto é fazê-lo funcionar na edge de forma confiável
Ninguém quer deixar o monitoramento da própria frequência cardíaca na nuvem — serviços remotos têm muitos problemas de falha e confiabilidade, além das dificuldades extras ligadas à inferência com LLMs
Os recursos tradicionais de detecção baseados em regras já existem nesses dispositivos, e combiná-los com os recursos avançados de detecção de padrões de um LLM pode reduzir alertas desnecessários e detectar novos padrões complexos
Isso é oferecer uma interface como a do ChatGPT para conversar com grandes volumes de dados na internet
Mas não vejo bem em que isso seria melhor do que usar o Google, clicar nos links do topo, desviar dos anúncios, aceitar cookies, ler o cabeçalho, rolar a página, fechar o pop-up de pagamento, ler o resto da matéria e repetir esse processo 4 vezes
Ok, entendi
Tem a frase "Stanford Repo Released Sep 31, 2025", e isso passa a sensação de ter sido amostrado de uma distribuição de probabilidade em que o dia seguinte a 30 de setembro de 2025 é 31
Agradece pelo feedback
Aponta a ironia de que o post é sobre um modelo que entende o tempo
Parece que o erro de data já foi corrigido
A base deste trabalho é um sistema chamado “Flamingo”
Esse sistema é especializado em entender texto e imagens alternados em forma de sequência
Ou seja, consegue processar duas modalidades sequenciais ao mesmo tempo
Este novo trabalho parece fortalecer a noção de tempo ao inserir tokens temporais em um canal de modalidade
(A propósito, o design do site é fofo demais — até tem um efeito de gradiente no texto da esquerda para a direita)
Link para o artigo sobre o Flamingo
Isso é realmente muito legal
Lendo o artigo, parece que essa técnica funciona bem para perguntas e respostas baseadas em dados de séries temporais
O aspecto da IA médica que mais me interessa é detectar sinais de doença que nem humanos conseguem perceber
Por exemplo, estimar fração de ejeção a partir de ECG, algo que nem cardiologistas conseguem fazer (mas que o algoritmo já foi validado por RCT)
Link para o artigo relacionado
Como o OpenTSLM tokeniza dados de séries temporais no espaço de embeddings de LLM, fico me perguntando se esse processo conseguiria capturar sinais tão sutis
Ou se essa abordagem poderia ser ampliada para esse tipo de caso de uso
Essa foi a maior motivação nas fases iniciais da pesquisa
No modelo, os dados brutos de séries temporais são integrados por cross-attention, e ele aprende representações específicas de séries temporais a partir de um encoder bruto de séries temporais
Se o modelo precisar processar séries temporais, seria melhor gerar um script que chame uma biblioteca de TS e passar isso para um executor
Uma pessoa provavelmente faria assim também
Não tenho certeza se faz sentido embutir essa funcionalidade diretamente no modelo
Fico curioso se ter capacidade nativa de processamento de TS no modelo permite fazer algo que não daria para fazer com tool calling
A Anthropic também está recomendando essa abordagem de “deixar o modelo escrever scripts” no anúncio mais recente do Claude Agent SDK
Geração de código é clara e excelente em reuso e composição, então é ideal para executar tarefas complexas com confiabilidade
Ao desenvolver agentes, pensar sobre quais tarefas são adequadas para serem expressas em código abre novas possibilidades
Link sobre o Claude Agent SDK
Acho que você perdeu o ponto
Basta pensar se, para descrever uma imagem, seria melhor chamar uma biblioteca de análise de imagem ou entender e raciocinar diretamente sobre a imagem como série temporal
Os gráficos do artigo mostram o que esses modelos conseguem fazer
No fundo, fico me perguntando se existe mesmo um “conceito de tempo” ali, e se ele entende causalidade
Vou experimentar isso assim que chegar em casa hoje
Trabalho com uma grande quantidade de dados de séries temporais de áudio (não são palavras e há muita variação sutil), então quero ver como esse método se compara às técnicas estatísticas tradicionais em termos de desempenho
Eles criaram um repositório no Hugging Face e já subiram parte dos pesos do modelo
Ainda não vejo esse link no site oficial, no artigo nem no GitHub
Página do OpenTSLM no Hugging Face
Fico imaginando o Claude Code monitorando minha série temporal de batimentos cardíacos em tempo real e até detectando quanto tempo eu fico me revirando na cama
Se entendi corretamente, esse modelo parece ter sido treinado para classificação e interpretação de séries temporais; vocês chegaram a fazer benchmark dele também para previsão (forecasting)?
Explicações e recomendações muitas vezes estão intimamente ligadas à previsão, então imagino que as características do modelo também apareceriam aí
Um teste interessante seria remover a tendência do S&P500 e depois decompor em 500 componentes por ação para analisar e ranquear o quanto cada papel contribuiu
Mas só esse tipo de tarefa dificilmente renderia emprego na Rentec ou na NSA
Em aplicações comerciais e médicas, em geral os sinais são normais e vêm acompanhados de ruído branco (não correlacionado), enquanto na NSA e na Rentec costuma-se lidar com sinais não estacionários, mudança de regime e ruído correlacionado
Nesses sinais, não dá para fazer denoising sem perda de informação
O objetivo desse tipo de análise não é prever o próximo tick, mas detectar o mais rápido possível mudanças de padrão (mudanças de regime) e combiná-las com padrões já conhecidos de negociação de ações ou de atividades de inteligência