- Os pesquisadores apontam que o uso de timing e sincronização pelos neurônios do cérebro na computação é um ponto-chave negligenciado pela IA moderna
- Foi introduzida a arquitetura Continuous Thought Machine (CTM), incorporando ao modelo real as dinâmicas neurais baseadas em tempo do cérebro animal
- A CTM processa informações usando uma dimensão interna de pensamento assíncrono, modelos em nível de neurônio individual e representações de sincronização entre neurônios
- Em diversos experimentos, foram confirmadas capacidade de computação adaptativa, memória baseada em sincronização neural e forte capacidade de generalização
- Foi demonstrada a facilidade de interpretação, plausibilidade biológica e adequação a várias tarefas da arquitetura CTM
tl;dr
- As características de timing e sincronização que os neurônios do cérebro usam na computação são essenciais para a flexibilidade e a adaptabilidade da inteligência biológica
- A IA moderna está abrindo mão dessas características baseadas em tempo em nome da eficiência e da simplicidade
- A equipe de pesquisa encontrou uma forma de reduzir a distância entre a plausibilidade biológica, em que o timing dos neurônios é importante, e a implementação eficiente da IA moderna
- O resultado mostra algo muito surpreendente e promissor
Introduction
- Neural Network (NN) foi originalmente inspirada no cérebro biológico, mas as NNs de hoje têm estruturas e dinâmicas muito diferentes do cérebro real
- As NNs modernas viabilizaram o deep learning em larga escala ao omitir dinâmicas temporais, mas isso as afasta de sua base biológica
- O cérebro utiliza dinâmicas neurais complexas, como plasticidade dependente do tempo de disparo (STDP) e sincronização entre neurônios
- Esses princípios de processamento temporal faltam na IA moderna, o que se torna um obstáculo para avançar em direção a uma inteligência flexível em nível humano
- Por isso, as funções de processamento temporal devem se tornar um elemento central da inteligência artificial
Why do this research?
- Apesar do alto desempenho da IA moderna, existe uma diferença essencial em relação à cognição humana flexível e à generalidade
- Para que a inteligência artificial alcance feitos além do cérebro humano, ela precisa modelar de forma ativa a atividade neural e o timing
- Neste estudo, o Continuous Thought Machine (CTM) introduz o timing neuronal como elemento central
- As principais contribuições são a separação da dimensão interna de pensamento, o modelo neural em nível de neurônio individual e a estrutura de representação baseada em sincronização
Reasoning models and recurrence
- A IA está evoluindo cada vez mais de um simples mapeamento entrada-saída para modelos de raciocínio ativos
- As estruturas recorrentes da família RNN foram recentemente substituídas por Transformers, mas a recorrência em si é útil para escalar a complexidade do modelo
- Modelos modernos de geração de texto, entre outros, usam geração intermediária (Recurrence) em tempo de teste, oferecendo computação adicional e flexibilidade
- Diferentemente das abordagens existentes, a CTM usa uma dimensão interna de pensamento progressivo e separada, timing em nível de neurônio individual e a própria sincronização como representação para resolver tarefas
Method
Visão geral da estrutura
- A CTM é uma estrutura em que a atividade neural se desenrola internamente sobre os dados
- Em cada etapa, o histórico de
pre-activation é coletado e fornecido ao Neuron Level Model (NLM)
- Com base nos históricos de
post-activation de vários neurônios, é calculada uma matriz de sincronização neuronal, gerando uma poderosa representação de sincronização
- A representação de sincronização é usada como vetor latente central para observação e previsão do modelo
Estrutura detalhada
1. Internal recurrence (recorrência interna)
- Usa uma dimensão de recorrência interna para manter separada a dimensão em que o progresso do pensamento se desenrola
- Cada tick interno funciona como uma unidade própria de pensamento, independentemente dos dados temporais externos
2. Neuron-level models (modelos em nível de neurônio)
- Cada neurônio tem uma estrutura MLP personalizada e recebe como entrada um curto histórico de
pre-activation para produzir post-activation
3. Synchronization as representation (sincronização como representação)
- Uma matriz de sincronização neuronal é calculada a partir de todos os
post-activation dentro de um determinado período, e isso é usado como a representação latente/vetor de ação central
Relação com os dados de entrada
- Os dados usam de forma complementar um método de processamento centrado em recorrência interna e sincronização
- A observação e a previsão dos dados de entrada são realizadas de acordo com o estado de sincronização
Internal ticks: dimensão do pensamento
- A CTM tem sua própria linha do tempo de pensamento, atualizando e refinando informações repetidamente em seu interior, independentemente da ordem dos dados
- É nessa dimensão que ocorre o desdobramento da atividade inteligente
Recurrent weights: Synapses
- O
pre-activation é produzido por meio de uma MLP estilo U-NET, mantendo os M valores mais recentes
- Cada neurônio recebe um vetor de histórico (série temporal de
pre-activation) em sua MLP individual e produz post-activation
Synchronization as a representation
- O modelo interage com o exterior por meio de uma matriz de sincronização entre neurônios
- Os valores de sincronização são usados diretamente como indicadores reais de ação, como saída, observação e
attention query
- À medida que a largura do modelo D aumenta, há uma característica em que a capacidade de representação e a quantidade de informação crescem quadraticamente
- Em combinação com módulos de dados de entrada como attention, isso mostra uma capacidade de processamento de informação ainda mais poderosa
Loss function
- A cada tick interno, é produzida uma saída, e são calculados a loss e o grau de confiança (1-entropia normalizada) correspondentes
- A loss total agrega dinamicamente o ponto de menor perda e o ponto de maior confiança, induzindo uma aprendizagem adaptativa ajustada à dificuldade do problema
Experiment: ImageNet
Demonstrations
- A CTM faz previsões para dados de imagem usando vários attention heads e sincronização neural
- São visualizados precisão, calibration e vários indicadores por limiar de confiança
Results
- A CTM ajusta as etapas de pensamento por meio de adaptive compute, e observou-se que, após certo ponto, o benefício adicional é pequeno
- São visualizados em conjunto 16 attention heads, previsão de classe/precisão por etapa e atividade neuronal
Discussion
- A CTM enfatiza uma interação intuitiva e flexível com os dados
- Por meio de uma representação baseada em sincronização neuronal, ela se distingue claramente das abordagens existentes também em reconhecimento visual
- Isso sugere que o elemento tempo (TIME) está fundamentalmente ligado à forma como as pessoas processam informação
Experiment: Solving 2D Mazes
The why and the how
- Resolver labirintos 2D é uma tarefa muito difícil para modelos de rede neural sem ferramentas auxiliares
- A CTM foi treinada no formato de previsão direta de caminho (
L/R/U/D/W), e os padrões de attention coincidem deliberadamente com o caminho real
- Em testes de generalização, ela resolve até labirintos longos e complexos com alta precisão/generalização
Results & Discussion
- A CTM apresenta desempenho esmagador em relação aos baselines existentes, mesmo nos caminhos mais longos
- Ao formar um world model interno estratégico semelhante ao humano, ela demonstra verdadeira capacidade de reasoning, e não mera memorização
A World Model
- Mesmo sem position encoding, ela cria um modelo interno do ambiente apenas com informação visual para resolver o problema
Experiment: Parity
- Foi treinada para prever a paridade aninhada de sequências binárias (soma par/ímpar) sob a condição de receber a entrada completa
- Ao usar mais de 75 ticks internos de pensamento, a CTM pode atingir 100% de precisão
- O LSTM torna o aprendizado instável quando o número de ticks internos aumenta
Learning sequential algorithms
- Pelo movimento dos attention heads e pelos padrões de ativação neuronal, a CTM aprende por conta própria estratégias de percorrer os dados no sentido inverso/direto
- Isso é evidência de capacidade de planejamento estratégico (Planning) e execução em etapas
Experiment: Q&A MNIST
Memory via Synchronization
- A tarefa MNIST Q&A testa a capacidade da CTM de memória de longo prazo/recuperação
- Mesmo quando a imagem de entrada sai da janela do histórico de ativação neuronal, ela armazena/recupera informações de memória de longo prazo por sincronização
Results & Generalization
- O desempenho melhora conforme aumenta o número de ticks internos de pensamento, e a capacidade de generalização para perguntas e comprimentos complexos é excelente
- O LSTM é instável com mais ticks, enquanto a CTM aprende e raciocina de forma consistente
Additional experiments
CTM versus humans
- Comparação de desempenho entre humanos, feedforward, LSTM e CTM no CIFAR-10
- Em Calibration (grau de correspondência das previsões probabilísticas), a CTM supera os humanos
- As dinâmicas de sincronização neural mostram características internas muito diversas e complexas, diferentemente das abordagens existentes
CIFAR-100, ablation studies
- Observou-se que, quanto maior a largura do modelo, maior a diversidade/dinâmica dos neurônios
- Dependendo do número de ticks internos, surgem processos internos de pensamento diferentes conforme a tarefa (distribuição de “dois picos”)
Sorting real numbers
- No experimento de ordenação de 30 números reais, a CTM mostrou comportamento emergente em que o tempo de computação interna (ticks de espera) varia conforme a distância/intervalo entre os valores
Reinforcement Learning
- Em ambientes de RL como MiniGrid, CartPole e outros, a CTM usa unidades internas de pensamento contínuo para interagir com o ambiente e tomar decisões de política
- Ela apresenta desempenho final semelhante ao LSTM, comprovando o efeito do registro contínuo do pensamento
Conclusion
- A CTM alcança de uma nova forma a fusão entre plausibilidade biológica e eficiência de IA
- Ao usar modelos em nível de neurônio e uma nova forma de representação baseada em sincronização neural, ela realiza uma capacidade de representação nunca antes vista
- Em classificação de imagens, resolução de labirintos, memória, ordenação, RL e várias outras tarefas, mostra consistência estrutural e alta adaptabilidade
- Isso demonstra a sinergia entre neurociência e machine learning e a importância de projetar máquinas de pensamento centradas em tempo e sincronização
1 comentários
Comentários no Hacker News
O que me preocupa neste artigo é a sensação de que, embora já exista muita pesquisa em aprendizado de máquina sobre redes neurais de disparo biologicamente plausíveis e redes neurais artificiais dependentes do tempo, a terminologia e a abordagem do artigo não reconhecem adequadamente esse vasto corpo de trabalho anterior; em especial, chamar a etapa de integração sináptica de “pensamento” pode confundir as pessoas. Pensamento, no sentido comum, é um processo iterativo de gerar, avaliar e revisar ideias, mas no artigo esse rótulo é aplicado ao nível de processo de uma única unidade. Isso também está muito distante da terminologia existente em ANN ou aprendizado de máquina. Esse uso de “pensamento” não parece apropriado. Não examinei todas as citações; foi apenas uma reação imediata a uma formulação que me lembrou uma linha de pesquisa com a qual sou familiar.
Fico muito feliz em ver esse tema importante voltar ao foco. No contexto do cérebro biológico e do corpo, é fácil pensar em “tempo” como o tempo linear newtoniano, mas o essencial em sistemas cérebro-corpo é criar sequências ordenadas de comportamento e computação dentro de vários fragmentos de “presente”, desde os 300 ms do “presente representacional” até os 50 microssegundos de células que avaliam a localização de um som. Para saber mais sobre temporalidade condicional, vale consultar um artigo recente do John Bickle, no European Journal of Neuroscience, entrevistando RW Williams.
Minha impressão após ler o artigo é que ele na verdade não se parece em nada com redes biológicas/de disparo. O artigo preserva o histórico das entradas e usa atenção multi-head para construir um modelo interno de como entradas “pré-sinápticas” passadas se refletem na saída atual. É uma estrutura parecida com um transformer levemente modificado, que preserva o histórico da entrada e usa atenção para produzir a saída. A tal “sincronização” também é obtida fazendo o produto interno de toda a pós-ativação, e então essa matriz resultante é projetada no espaço de saída. Como vários outputs precisam ser multiplicados para produzir o valor correto em cada timestep, parece que chamaram essa ligação de “sincronização”. Isso se parece com um tipo de indução de “esparsidade”, que combina vários valores de saída em uma matriz e enfatiza a importância da combinação acima da individualidade de cada valor. Esse método é o mecanismo básico da atenção, que combina por produto interno saídas vindas de vários subsistemas.
Há três coisas interessantes neste fim de semana: 1) máquina de pensamento contínuo (uma rede neural de codificação temporal parecida com cérebro biológico), 2) “zero data reasoning” (IA que aprende pela ação direta, em vez de pré-treinamento com dados massivos), 3) Intellect-2 (uma arquitetura de aprendizado por reforço distribuída globalmente). Para um não especialista, parece que estamos um passo mais perto da singularidade.
Implementar mecanismos de codificação temporal como timing de spikes e sincronização é muito difícil, e por isso redes neurais modernas focam simplicidade e eficiência computacional em vez de dinâmica temporal. Simular o domínio temporal de verdade também é um problema muito difícil do ponto de vista de hardware, especialmente porque adiciona um eixo extra de hiperparâmetros, o que torna quase impossível encontrar combinações válidas. Como é muito mais rápido encontrar arquiteturas com boa eficiência computacional, quando spikes em timesteps futuros entram no jogo, surgem estruturas de evento parecidas com filas de prioridade e o custo computacional explode. A menos que o objetivo seja realmente “interação hard real-time”, não vejo muito sentido em perseguir esse tipo de estrutura do ponto de vista prático ou de produto. O fato de STDP (mudança de peso dependente do tempo relativo entre spikes) permitir aprendizado online não supervisionado ainda é extremamente atraente, mas por enquanto não parece haver caminho em silício. Usar hardware dedicado acaba sendo como gravar parte dos hiperparâmetros como constantes no código, então também fica difícil garantir robustez e ainda se restringe o financiamento.
A ideia dessas máquinas em si não é totalmente nova. O artigo de 2002 introduziu Liquid State Machines (LSM), que alimentavam uma rede neural de disparo com entradas contínuas e liam o liquid state por meio de uma camada densa conectada a todos os neurônios da rede. Um artigo de 2019 usou LSM para jogar Atari e, embora às vezes superasse humanos, nem sempre era assim, e também foram observadas tendências de falha parecidas com as limitações de redes neurais tradicionais. O desempenho não era especialmente superior ao de redes neurais convencionais. Eu gostaria de ver mais interesse em pesquisas com redes neurais que processem entrada contínua (por exemplo, áudio) e produzam saída contínua, aplicando apenas princípios de plasticidade do cérebro, sem backpropagation. Eu mesmo já tentei, mas talvez por ainda não entendermos bem o suficiente como o cérebro funciona, ainda não sei qual seria a resposta ideal.
Ironicamente, esta página continua recarregando no Firefox iOS.
O núcleo da próxima geração de modelos será o princípio “neurons that fire together wire together”. Acho que redes neurais de disparo oferecem um caminho alternativo muito interessante.