2 pontos por GN⁺ 2025-05-13 | 1 comentários | Compartilhar no WhatsApp
  • Os pesquisadores apontam que o uso de timing e sincronização pelos neurônios do cérebro na computação é um ponto-chave negligenciado pela IA moderna
  • Foi introduzida a arquitetura Continuous Thought Machine (CTM), incorporando ao modelo real as dinâmicas neurais baseadas em tempo do cérebro animal
  • A CTM processa informações usando uma dimensão interna de pensamento assíncrono, modelos em nível de neurônio individual e representações de sincronização entre neurônios
  • Em diversos experimentos, foram confirmadas capacidade de computação adaptativa, memória baseada em sincronização neural e forte capacidade de generalização
  • Foi demonstrada a facilidade de interpretação, plausibilidade biológica e adequação a várias tarefas da arquitetura CTM

tl;dr

  • As características de timing e sincronização que os neurônios do cérebro usam na computação são essenciais para a flexibilidade e a adaptabilidade da inteligência biológica
  • A IA moderna está abrindo mão dessas características baseadas em tempo em nome da eficiência e da simplicidade
  • A equipe de pesquisa encontrou uma forma de reduzir a distância entre a plausibilidade biológica, em que o timing dos neurônios é importante, e a implementação eficiente da IA moderna
  • O resultado mostra algo muito surpreendente e promissor

Introduction

  • Neural Network (NN) foi originalmente inspirada no cérebro biológico, mas as NNs de hoje têm estruturas e dinâmicas muito diferentes do cérebro real
  • As NNs modernas viabilizaram o deep learning em larga escala ao omitir dinâmicas temporais, mas isso as afasta de sua base biológica
  • O cérebro utiliza dinâmicas neurais complexas, como plasticidade dependente do tempo de disparo (STDP) e sincronização entre neurônios
  • Esses princípios de processamento temporal faltam na IA moderna, o que se torna um obstáculo para avançar em direção a uma inteligência flexível em nível humano
  • Por isso, as funções de processamento temporal devem se tornar um elemento central da inteligência artificial

Why do this research?

  • Apesar do alto desempenho da IA moderna, existe uma diferença essencial em relação à cognição humana flexível e à generalidade
  • Para que a inteligência artificial alcance feitos além do cérebro humano, ela precisa modelar de forma ativa a atividade neural e o timing
  • Neste estudo, o Continuous Thought Machine (CTM) introduz o timing neuronal como elemento central
  • As principais contribuições são a separação da dimensão interna de pensamento, o modelo neural em nível de neurônio individual e a estrutura de representação baseada em sincronização

Reasoning models and recurrence

  • A IA está evoluindo cada vez mais de um simples mapeamento entrada-saída para modelos de raciocínio ativos
  • As estruturas recorrentes da família RNN foram recentemente substituídas por Transformers, mas a recorrência em si é útil para escalar a complexidade do modelo
  • Modelos modernos de geração de texto, entre outros, usam geração intermediária (Recurrence) em tempo de teste, oferecendo computação adicional e flexibilidade
  • Diferentemente das abordagens existentes, a CTM usa uma dimensão interna de pensamento progressivo e separada, timing em nível de neurônio individual e a própria sincronização como representação para resolver tarefas

Method

Visão geral da estrutura

  • A CTM é uma estrutura em que a atividade neural se desenrola internamente sobre os dados
  • Em cada etapa, o histórico de pre-activation é coletado e fornecido ao Neuron Level Model (NLM)
  • Com base nos históricos de post-activation de vários neurônios, é calculada uma matriz de sincronização neuronal, gerando uma poderosa representação de sincronização
  • A representação de sincronização é usada como vetor latente central para observação e previsão do modelo

Estrutura detalhada

1. Internal recurrence (recorrência interna)

  • Usa uma dimensão de recorrência interna para manter separada a dimensão em que o progresso do pensamento se desenrola
  • Cada tick interno funciona como uma unidade própria de pensamento, independentemente dos dados temporais externos

2. Neuron-level models (modelos em nível de neurônio)

  • Cada neurônio tem uma estrutura MLP personalizada e recebe como entrada um curto histórico de pre-activation para produzir post-activation

3. Synchronization as representation (sincronização como representação)

  • Uma matriz de sincronização neuronal é calculada a partir de todos os post-activation dentro de um determinado período, e isso é usado como a representação latente/vetor de ação central

Relação com os dados de entrada

  • Os dados usam de forma complementar um método de processamento centrado em recorrência interna e sincronização
  • A observação e a previsão dos dados de entrada são realizadas de acordo com o estado de sincronização

Internal ticks: dimensão do pensamento

  • A CTM tem sua própria linha do tempo de pensamento, atualizando e refinando informações repetidamente em seu interior, independentemente da ordem dos dados
  • É nessa dimensão que ocorre o desdobramento da atividade inteligente

Recurrent weights: Synapses

  • O pre-activation é produzido por meio de uma MLP estilo U-NET, mantendo os M valores mais recentes
  • Cada neurônio recebe um vetor de histórico (série temporal de pre-activation) em sua MLP individual e produz post-activation

Synchronization as a representation

  • O modelo interage com o exterior por meio de uma matriz de sincronização entre neurônios
  • Os valores de sincronização são usados diretamente como indicadores reais de ação, como saída, observação e attention query
  • À medida que a largura do modelo D aumenta, há uma característica em que a capacidade de representação e a quantidade de informação crescem quadraticamente
  • Em combinação com módulos de dados de entrada como attention, isso mostra uma capacidade de processamento de informação ainda mais poderosa

Loss function

  • A cada tick interno, é produzida uma saída, e são calculados a loss e o grau de confiança (1-entropia normalizada) correspondentes
  • A loss total agrega dinamicamente o ponto de menor perda e o ponto de maior confiança, induzindo uma aprendizagem adaptativa ajustada à dificuldade do problema

Experiment: ImageNet

Demonstrations

  • A CTM faz previsões para dados de imagem usando vários attention heads e sincronização neural
  • São visualizados precisão, calibration e vários indicadores por limiar de confiança

Results

  • A CTM ajusta as etapas de pensamento por meio de adaptive compute, e observou-se que, após certo ponto, o benefício adicional é pequeno
  • São visualizados em conjunto 16 attention heads, previsão de classe/precisão por etapa e atividade neuronal

Discussion

  • A CTM enfatiza uma interação intuitiva e flexível com os dados
  • Por meio de uma representação baseada em sincronização neuronal, ela se distingue claramente das abordagens existentes também em reconhecimento visual
  • Isso sugere que o elemento tempo (TIME) está fundamentalmente ligado à forma como as pessoas processam informação

Experiment: Solving 2D Mazes

The why and the how

  • Resolver labirintos 2D é uma tarefa muito difícil para modelos de rede neural sem ferramentas auxiliares
  • A CTM foi treinada no formato de previsão direta de caminho (L/R/U/D/W), e os padrões de attention coincidem deliberadamente com o caminho real
  • Em testes de generalização, ela resolve até labirintos longos e complexos com alta precisão/generalização

Results & Discussion

  • A CTM apresenta desempenho esmagador em relação aos baselines existentes, mesmo nos caminhos mais longos
  • Ao formar um world model interno estratégico semelhante ao humano, ela demonstra verdadeira capacidade de reasoning, e não mera memorização

A World Model

  • Mesmo sem position encoding, ela cria um modelo interno do ambiente apenas com informação visual para resolver o problema

Experiment: Parity

  • Foi treinada para prever a paridade aninhada de sequências binárias (soma par/ímpar) sob a condição de receber a entrada completa
  • Ao usar mais de 75 ticks internos de pensamento, a CTM pode atingir 100% de precisão
  • O LSTM torna o aprendizado instável quando o número de ticks internos aumenta

Learning sequential algorithms

  • Pelo movimento dos attention heads e pelos padrões de ativação neuronal, a CTM aprende por conta própria estratégias de percorrer os dados no sentido inverso/direto
  • Isso é evidência de capacidade de planejamento estratégico (Planning) e execução em etapas

Experiment: Q&A MNIST

Memory via Synchronization

  • A tarefa MNIST Q&A testa a capacidade da CTM de memória de longo prazo/recuperação
  • Mesmo quando a imagem de entrada sai da janela do histórico de ativação neuronal, ela armazena/recupera informações de memória de longo prazo por sincronização

Results & Generalization

  • O desempenho melhora conforme aumenta o número de ticks internos de pensamento, e a capacidade de generalização para perguntas e comprimentos complexos é excelente
  • O LSTM é instável com mais ticks, enquanto a CTM aprende e raciocina de forma consistente

Additional experiments

CTM versus humans

  • Comparação de desempenho entre humanos, feedforward, LSTM e CTM no CIFAR-10
  • Em Calibration (grau de correspondência das previsões probabilísticas), a CTM supera os humanos
  • As dinâmicas de sincronização neural mostram características internas muito diversas e complexas, diferentemente das abordagens existentes

CIFAR-100, ablation studies

  • Observou-se que, quanto maior a largura do modelo, maior a diversidade/dinâmica dos neurônios
  • Dependendo do número de ticks internos, surgem processos internos de pensamento diferentes conforme a tarefa (distribuição de “dois picos”)

Sorting real numbers

  • No experimento de ordenação de 30 números reais, a CTM mostrou comportamento emergente em que o tempo de computação interna (ticks de espera) varia conforme a distância/intervalo entre os valores

Reinforcement Learning

  • Em ambientes de RL como MiniGrid, CartPole e outros, a CTM usa unidades internas de pensamento contínuo para interagir com o ambiente e tomar decisões de política
  • Ela apresenta desempenho final semelhante ao LSTM, comprovando o efeito do registro contínuo do pensamento

Conclusion

  • A CTM alcança de uma nova forma a fusão entre plausibilidade biológica e eficiência de IA
  • Ao usar modelos em nível de neurônio e uma nova forma de representação baseada em sincronização neural, ela realiza uma capacidade de representação nunca antes vista
  • Em classificação de imagens, resolução de labirintos, memória, ordenação, RL e várias outras tarefas, mostra consistência estrutural e alta adaptabilidade
  • Isso demonstra a sinergia entre neurociência e machine learning e a importância de projetar máquinas de pensamento centradas em tempo e sincronização

1 comentários

 
GN⁺ 2025-05-13
Comentários no Hacker News
  • O que me preocupa neste artigo é a sensação de que, embora já exista muita pesquisa em aprendizado de máquina sobre redes neurais de disparo biologicamente plausíveis e redes neurais artificiais dependentes do tempo, a terminologia e a abordagem do artigo não reconhecem adequadamente esse vasto corpo de trabalho anterior; em especial, chamar a etapa de integração sináptica de “pensamento” pode confundir as pessoas. Pensamento, no sentido comum, é um processo iterativo de gerar, avaliar e revisar ideias, mas no artigo esse rótulo é aplicado ao nível de processo de uma única unidade. Isso também está muito distante da terminologia existente em ANN ou aprendizado de máquina. Esse uso de “pensamento” não parece apropriado. Não examinei todas as citações; foi apenas uma reação imediata a uma formulação que me lembrou uma linha de pesquisa com a qual sou familiar.

    • Peço desculpas, pois eu ia responder a este comentário originalmente, mas deixei uma resposta separada no fio do comentário-pai. A tentativa do artigo de imitar redes biológicas de disparo parece bem frouxa; na prática, a principal contribuição é usar o produto escalar com a transposta da matriz de saída, e o restante é uma técnica de difusão/atenção sobre a entrada. A forma geral é a de um modelo recursivo em cascata que combina atenção na entrada e atenção na saída.
    • Ao longo dos últimos 10 a 20 anos, pesquisadores de aprendizado de máquina que reconhecem trabalhos ligados à neurociência parecem ter recebido muitas críticas de exibicionismo, então isso não me surpreende muito.
    • O artigo é apresentado como se fosse uma ideia nova, mas quase não menciona décadas de pesquisa em redes neurais de disparo ou áreas parecidas.
    • Eu agradeceria se alguém pudesse compartilhar uma lista de livros ou artigos, ou mesmo uma breve resenha, que considere mais esclarecedora sobre conceitos e implementações de algoritmos inspirados biologicamente.
    • Os autores dizem que não chamam uma única integração sináptica de “pensamento”; eles usam o termo no loop interno da rede inteira, como “ticks internos” para cada entrada externa, e afirmam explicitamente que isso é análogo a “pensamento”.
    • Será que este artigo foi escrito pelo Jürgen Schmidhuber?
  • Fico muito feliz em ver esse tema importante voltar ao foco. No contexto do cérebro biológico e do corpo, é fácil pensar em “tempo” como o tempo linear newtoniano, mas o essencial em sistemas cérebro-corpo é criar sequências ordenadas de comportamento e computação dentro de vários fragmentos de “presente”, desde os 300 ms do “presente representacional” até os 50 microssegundos de células que avaliam a localização de um som. Para saber mais sobre temporalidade condicional, vale consultar um artigo recente do John Bickle, no European Journal of Neuroscience, entrevistando RW Williams.

  • Minha impressão após ler o artigo é que ele na verdade não se parece em nada com redes biológicas/de disparo. O artigo preserva o histórico das entradas e usa atenção multi-head para construir um modelo interno de como entradas “pré-sinápticas” passadas se refletem na saída atual. É uma estrutura parecida com um transformer levemente modificado, que preserva o histórico da entrada e usa atenção para produzir a saída. A tal “sincronização” também é obtida fazendo o produto interno de toda a pós-ativação, e então essa matriz resultante é projetada no espaço de saída. Como vários outputs precisam ser multiplicados para produzir o valor correto em cada timestep, parece que chamaram essa ligação de “sincronização”. Isso se parece com um tipo de indução de “esparsidade”, que combina vários valores de saída em uma matriz e enfatiza a importância da combinação acima da individualidade de cada valor. Esse método é o mecanismo básico da atenção, que combina por produto interno saídas vindas de vários subsistemas.

    • A fraqueza do artigo é que a comparação de desempenho fica limitada a LSTM (modelo recorrente simples). Parece que apenas múltiplas camadas de atenção de entrada/saída já poderiam produzir uma estrutura e um desempenho parecidos. Transformers reais são um pouco diferentes, mas não há uma diferença tão grande em relação à combinação de input attention + estrutura unet usada no artigo.
  • Há três coisas interessantes neste fim de semana: 1) máquina de pensamento contínuo (uma rede neural de codificação temporal parecida com cérebro biológico), 2) “zero data reasoning” (IA que aprende pela ação direta, em vez de pré-treinamento com dados massivos), 3) Intellect-2 (uma arquitetura de aprendizado por reforço distribuída globalmente). Para um não especialista, parece que estamos um passo mais perto da singularidade.

    • Para mim, não parece tanto assim. Há artigos demais e direções de pesquisa demais para prever o que vai estourar como diffusion, transformer, AlphaZero, Chat GPT-3 etc. Mesmo quando parece um avanço radical, esse tipo de progresso nasce do acúmulo de muita pesquisa e tentativa e erro. Seria ótimo se esses três avanços pudessem se combinar bem, mas eu realmente não sei.
    • Acho melhor não atribuir significado demais a artigos individuais. Na melhor das hipóteses, isso faz ignorar uma enorme base de pesquisa; na pior, leva a expectativas cor-de-rosa e a apostar demais em uma única ideia.
    • Intellect-2 e zero data reasoning são ambos estruturas que operam em LLMs (o nome “zero data reasoning” pode até induzir ao erro). Se você quer uma inovação real em LLMs, talvez valha olhar como a InceptionLabs elevou a inferência em 16x com modelos de diffusion. O desempenho do nosso algoritmo de aprendizado por reforço temporal ainda fica muito atrás de modelos de inferência e, apesar do boom da IA, robótica e direção autônoma continuam emperradas. Esta técnica do artigo também tem potencial, mas seria melhor se alguém lapidasse melhor a terminologia para facilitar a digestão. Ainda acho que estamos longe de uma IA útil em vários domínios, porque modelos de grande escala ainda são muito bons em explorar brechas da função de recompensa.
    • Quando você realmente roda implementações de artigos, muitas vezes os resultados não são tão bons quanto o artigo anuncia, ou então falta código. Para não ser levado pelo hype da IA, é bom criar o hábito de ler os resultados concretos e as limitações do artigo e, se houver código, baixá-lo, executá-lo e também testá-lo com entradas fora do conjunto de treinamento.
    • Também não sou especialista, mas isso me parece um pouco como achar que robôs vão dominar o mundo em breve só porque alguém inventou câmera, atuadores e bateria. Ou seja, isso parece mais um passo de bebê do que um salto.
    • A crítica não deve ser descartada. Pode haver bastante discordância sobre se artigos e projetos mais conhecidos realmente representam avanços revolucionários como take-off ou AGI. Mas esses artigos também podem ser representantes de uma direção de pesquisa maior. Então a sensação é mais a de um “coelhinho” dando vários pulinhos pequenos e consistentes na mesma direção. Chamar um dado momento de salto ou não depende de quem observa, mas, de todo modo, o coelho está avançando.
  • Implementar mecanismos de codificação temporal como timing de spikes e sincronização é muito difícil, e por isso redes neurais modernas focam simplicidade e eficiência computacional em vez de dinâmica temporal. Simular o domínio temporal de verdade também é um problema muito difícil do ponto de vista de hardware, especialmente porque adiciona um eixo extra de hiperparâmetros, o que torna quase impossível encontrar combinações válidas. Como é muito mais rápido encontrar arquiteturas com boa eficiência computacional, quando spikes em timesteps futuros entram no jogo, surgem estruturas de evento parecidas com filas de prioridade e o custo computacional explode. A menos que o objetivo seja realmente “interação hard real-time”, não vejo muito sentido em perseguir esse tipo de estrutura do ponto de vista prático ou de produto. O fato de STDP (mudança de peso dependente do tempo relativo entre spikes) permitir aprendizado online não supervisionado ainda é extremamente atraente, mas por enquanto não parece haver caminho em silício. Usar hardware dedicado acaba sendo como gravar parte dos hiperparâmetros como constantes no código, então também fica difícil garantir robustez e ainda se restringe o financiamento.

    • Por exemplo, se uma arquitetura FF (feedforward) de médio porte leva 100 ms para processar um lote de entrada, o que acontece numa estrutura CTM se você usar 10 ms no eixo FF e multiplicar isso por 10 “ticks” internos? Os números são aproximados, mas no fim a questão é se esse viés indutivo para um eixo temporal explícito realmente tem significado. Acho que uma estrutura dessas talvez tenha a mesma dificuldade de busca.
  • A ideia dessas máquinas em si não é totalmente nova. O artigo de 2002 introduziu Liquid State Machines (LSM), que alimentavam uma rede neural de disparo com entradas contínuas e liam o liquid state por meio de uma camada densa conectada a todos os neurônios da rede. Um artigo de 2019 usou LSM para jogar Atari e, embora às vezes superasse humanos, nem sempre era assim, e também foram observadas tendências de falha parecidas com as limitações de redes neurais tradicionais. O desempenho não era especialmente superior ao de redes neurais convencionais. Eu gostaria de ver mais interesse em pesquisas com redes neurais que processem entrada contínua (por exemplo, áudio) e produzam saída contínua, aplicando apenas princípios de plasticidade do cérebro, sem backpropagation. Eu mesmo já tentei, mas talvez por ainda não entendermos bem o suficiente como o cérebro funciona, ainda não sei qual seria a resposta ideal.

  • Ironicamente, esta página continua recarregando no Firefox iOS.

    • No meu navegador ela nem abre.
  • O núcleo da próxima geração de modelos será o princípio “neurons that fire together wire together”. Acho que redes neurais de disparo oferecem um caminho alternativo muito interessante.