7 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp
  • Deep learning pode ser entendido como uma sequência de transformações topológicas que transformam os dados de maneiras significativas
  • Redes neurais transformam dados em espaços de alta dimensão, funcionando como geradores de topologia que tornam separáveis dados que originalmente não podiam ser separados
  • Os dados existem sobre variedades de alta dimensão (manifolds), e as redes neurais aprendem a estrutura dessas variedades para tarefas significativas de classificação, tradução e inferência
  • Na pesquisa recente em IA, várias técnicas de aprendizado supervisionado e aprendizado por reforço (como RLHF) foram introduzidas para se mover para pontos melhores sobre a variedade da inferência
  • A própria rede neural, imagens, texto e lógica de raciocínio — toda informação pode ser representada como variedades, e a rede neural atua como um descobridor universal de topologia

Relação entre deep learning e topologia

  • Topologia é o ramo da matemática que estuda propriedades que não mudam durante o processo de deformação dos objetos
  • Redes neurais de deep learning alteram gradualmente a distribuição e a estrutura dos dados de entrada ao aplicar repetidamente transformações lineares e não lineares em várias dimensões (por exemplo, multiplicação de matrizes, tanh)
  • Cada operação em uma camada da rede neural pode ser interpretada como uma transformação geométrica, e o acúmulo dessas transformações permite separar e classificar estruturas de dados complexas
  • Essa característica torna possível distinguir classes complexas que originalmente não poderiam ser separadas por uma única linha ou superfície em vários conjuntos de dados

Expansão de dimensão e separação de dados

  • Mesmo dados que se sobrepõem e não podem ser distinguidos em um plano bidimensional podem ser facilmente separados ao serem movidos para dimensões superiores (alta dimensão)
  • Diferentemente dos humanos, redes neurais podem operar em dimensões arbitrariamente altas, o que permite lidar com padrões de dados muito complexos
  • Como exemplo, problemas de classificação como cães e gatos em fotos podem ser reconstruídos em estruturas (variedades) que podem ser matematicamente separadas em alta dimensão

Significado e papel das redes neurais profundas

  • Redes neurais são uma "ferramenta que gera topologia", reorganizando os dados de entrada em estruturas significativas
  • A função de perda (loss function) define quais propriedades dos dados serão aprendidas, criando superfícies (topologies) adequadas a várias tarefas, como classificação, tradução e previsão
  • Todos os dados significativos (texto, imagem, som etc.) são armazenados como vetores numéricos de alta dimensão (embedding vectors), permitindo operações matemáticas flexíveis dentro desse espaço

Variedades (manifolds) e representação de significado

  • Cores, imagens, palavras e até classificações de móveis: toda informação e todo conceito existem em um espaço chamado variedade de alta dimensão
  • Por exemplo, todos os valores de pixel de uma imagem RGB são representados como um vetor enorme, permitindo analisar transformações significativas e similaridades sobre a variedade de imagens
  • Por meio de operações de embedding, conceitos semanticamente relacionados (ex.: king - man + woman = queen) podem ser posicionados próximos uns dos outros

Rede neural, inferência e abordagem baseada em variedades para estratégias de aprendizado

  • O próprio raciocínio humano também pode ser modelado como clusters sobre uma variedade de alta dimensão, e as redes neurais avançam gradualmente por ela em direção a inferências melhores
  • A limitação atual dos grandes modelos de linguagem (LLMs) é que apenas estatísticas puras da linguagem (next-token prediction) não são suficientes para alcançar raciocínio em nível humano
  • Para superar isso, estão sendo usadas várias abordagens baseadas em reforço, como aprendizado supervisionado, RLHF, Chain-of-Thought e coleta de traces de raciocínio de alta qualidade
  • Recentemente, para modelos de raciocínio robustos, artigos como o do Deepseek R1 tentam superar os limites e os custos da avaliação humana ao selecionar automaticamente o "bom raciocínio" com base em critérios objetivos (por exemplo, testes unitários, acerto de problemas matemáticos)

Redes neurais e uso da estrutura de variedade do próprio modelo

  • Todos os parâmetros (pesos) de uma rede neural também podem ser representados como um enorme vetor, que pode ser interpretado como uma variedade em vários espaços semânticos
  • O conceito de modelos de diffusion para geração de imagens pode ser estendido ao espaço de parâmetros de redes neurais, permitindo reutilizar com eficiência diversas características de modelos pretrained, além de viabilizar inicialização rápida e criação de novos modelos
  • O avanço de técnicas para explorar o espaço de embedding dos modelos pode possibilitar, no futuro, um desenvolvimento de IA mais rápido e eficaz

Conclusão e implicações

  • A área de deep learning ainda tende a ser informal e dependente de intuição, mas o pensamento topológico ajuda muito a entender o funcionamento de modelos complexos
  • À medida que cresce a compreensão sobre espaços de embedding e estruturas de variedades, deve se tornar possível um desenvolvimento e uma análise de IA mais práticos e sistemáticos

1 comentários

 
GN⁺ 2025-05-21
Comentários do Hacker News
  • Sobre este texto, escrito com base em um post meu no blog de 2014, eu tentei com bastante empenho usar topologia como forma de entender redes neurais. Cheguei a compartilhar os resultados nos dois textos de acompanhamento abaixo

    • a “hipótese de representação linear” — a ideia de que conceitos (features) em redes neurais correspondem a direções específicas
    • o conceito de “circuitos” — a estrutura de rede formada pela conexão dessas features
      Recomendo os textos abaixo sobre isso
    • Em relação às formas de entender redes neurais, muitas vezes penso nos seguintes mal-entendidos

      • a afirmação de que LLM é apenas um pouco melhor que os antigos modelos n-gram
      • o fenômeno em que a frase “está apenas prevendo o próximo token” por si só passa a impressão de que o modelo é simples
        Frequentemente vejo essa nuance de equiparar LLMs e modelos n-gram em reações populares ao post do Karpathy sobre RNN ou no artigo “stochastic parrot”. No passado, as duas abordagens eram vistas como mais parecidas, mas depois do enorme avanço dos modelos recentes essa equivalência já não funciona tão bem
    • Lembro da minha experiência tentando aplicar topologia em situações reais. Desde que aprendi topologia pela primeira vez, em 2011, venho testando isso de forma intermitente até hoje, mas sou cético em relação à afirmação comum de que “dados reais se aproximam de variedades suaves e de baixa dimensão”. Gostaria de investigar mais a fundo se essa característica realmente vale para dados reais ou se é resultado de uma distorção deliberada causada pelo uso de métodos de redução de dimensionalidade em nome da eficiência, mas é uma pena não ter tempo para isso

    • Foi interessante acompanhar você escrevendo há tanto tempo sobre “circuitos”. A hipótese de representação linear me parece especialmente convincente, a ponto de eu ter até escrito um rascunho de resenha sobre Toy Models of Superposition. Ainda assim, a análise de “circuitos” me parece excessivamente focada na arquitetura Transformer, então a acho menos atraente.
      Modelos como GAN, VAE e CLIP parecem modelar variedades de forma explícita. Mesmo modelos simples podem, durante a otimização, agrupar features semelhantes na mesma direção, mas às vezes há o fenômeno empírico de features parecidas acabarem em direções ortogonais. Isso provavelmente parece estar mais relacionado à função de perda que está sendo otimizada
      Em Toy Models of Superposition usa-se MSE, então o comportamento lembra uma tarefa de regressão/compressão com autoencoder. Os padrões de interferência mútua entre features que coocorrem tendem a ser importantes. Mas, se o objetivo for uma função de perda contrastiva, acho que esse comportamento de minimizar interferência será diferente

    • Queria compartilhar que houve discussões no Hacker News sobre meus textos antigos
      Neural Networks, Manifolds, and Topology (2014)

    • Na física, é interessante que diferentes simetrias globais possam ter a mesma estrutura métrica (geometria local) em variedades topologicamente distintas. Por exemplo, nas equações de campo de Einstein, a mesma solução do tensor métrico pode existir em variedades topologicamente diferentes.
      Por outro lado, olhando para soluções do Ising Model, mesmo com a mesma estrutura topológica de grade podem existir várias soluções, e perto do ponto crítico a estrutura topológica da grade talvez nem seja tão importante assim.
      É só uma analogia simples, mas sugere que os detalhes importantes da dinâmica não estão alojados na topologia do sistema. A história é bem mais complexa

  • Se topologia fosse realmente o ponto central, não estaríamos tentando achatar variedades para facilitar a busca por similaridade. Na prática, o essencial é a “geometria” e a medida adequada para ela. Na vida real também queremos uma estrutura que permita comparar coisas
    Durante o treinamento de redes neurais, as variedades também se deformam topologicamente. Isso leva à pergunta: “como exatamente a topologia muda durante o treinamento?”. Pessoalmente, imagino que no começo a topologia oscile violentamente, depois vá se estabilizando, e então ocorra um ajuste fino geométrico. Alguns artigos que podem servir de referência são os seguintes

    • Se você já usou GAN ou VAE, dá para observar esse processo de mudança topológica de fato. Em vários checkpoints ao longo do treinamento, é possível ver como os pontos em espaço de alta dimensão se movem com ferramentas como UMAP e TSNE
      Esse processo que você imaginou — “mudanças violentas no início, depois estabilização, e então ajuste fino geométrico” — está correto na prática. Nisso, as mudanças violentas do começo também são bastante influenciadas por taxa de aprendizado, escolha do otimizador etc.

    • Se for para ser rigoroso, talvez o que estamos tratando aqui seja álgebra linear aplicada, mas dito assim perde um pouco do charme

  • O título agora está batido e impreciso. Gostei de ler o conteúdo.
    Topologia é a matemática que trata da estrutura mínima que resta quando removemos várias restrições geométricas como distância, ângulo e direção. Essa perspectiva topológica olha apenas para relações que permanecem essenciais mesmo sob deformações violentas
    Conceitos topológicos podem ser úteis em machine learning, mas na prática informações geométricas como escala, distância e ângulo são muito mais importantes para a essência dos dados. Por exemplo, se você ignorar escala ao distinguir um gato de um tigre, vai chegar a um resultado absurdo
    A abordagem topológica passa a ser útil justamente quando há muita informação pouco confiável, então dizer que deep learning se baseia em topologia é exagerado

    • Concordo com a ideia de que topologia é útil quando não dá para confiar em distância, ângulo, comprimento etc., mas de fato lidamos com dados pouco confiáveis. No espaço de pixels de imagem, não significa nada uma lata de cola e uma placa de pare estarem moderadamente próximas. Redes neurais realmente executam essas “deformações violentas” de que você falou

    • Quando entramos na etapa de implementação real, passam a importar detalhes que, “se fosse realmente topologia”, não precisariam importar, como número de camadas, quantização e resolução de ponto flutuante

    • A palavra “topologia” tem duas definições no dicionário. Considerar como conceito de topologia apenas as propriedades que você apresentou é uma visão limitada a algumas definições

  • Não entendo bem por que a ideia de encontrar superfícies de separação neste texto é chamada de “topologia”.
    Por exemplo, há a explicação de que “se aprender tradução, o modelo aprende uma topologia que posiciona bread e pan, foto de gato e a palavra cat próximos”, mas esse tipo de conversa sobre “estar perto ou longe” é justamente algo distante de topologia
    Em um espaço topológico, o fato de dois pontos estarem próximos não significa muito, porque se você esticar o espaço pode separá-los bastante e ainda assim continuar no “mesmo espaço topológico” (esse é o ponto da piada de que “uma xícara de café e uma rosquinha têm a mesma topologia”)
    Na prática, parece mais apropriado aplicar uma abordagem de geometria algébrica — a estrutura em que pontos ficam próximos de certa variedade algébrica. No fim das contas, o importante é geometria e distância

    • Se eu tivesse de dar uma definição mais solta de topologia, diria que é o estudo de espaços matemáticos em que existe a noção de “perto e longe” (vizinhança, neighborhood) mesmo sem distância. Diferentes definições de conjuntos abertos equivalem a escolher uma topologia, e isso determina propriedades como continuidade, compacidade e conexidade.
      Espaços métricos são um caso de espaços topológicos.
      Claro que isso não significa que topologia seja sempre a melhor perspectiva para entender redes neurais. O próprio autor original hoje tem outra posição
      Só queria desfazer esse mal-entendido. Veja https://en.wikipedia.org/wiki/General_topology

    • Concordo 100% que isso não tem nada a ver com topology. Se um texto é sobre topology e deep learning, espero que a confusão fique restrita só à parte de topology

    • Eu usei a palavra "topology" de forma um pouco idiomática agora há pouco. Mais precisamente, eu deveria ter dito “superfície de separação”

  • Acho que olhar o aprendizado pela perspectiva de variedades é uma formulação poderosa
    Em espaços de alta dimensão, muitas vezes tenho a sensação de que reasoning em si é praticamente indistinguível disso
    Já escrevi bastante em diário e em comentários de notícias sobre esses “probabilistic reasoning manifolds”.
    A ideia é que uma variedade composta de espaço de padrões se forma essencialmente por aprendizado probabilístico, e que o raciocínio real acontece de modo probabilístico, não proposicional. Dá para encontrar alguns “axiomas” buscando pontos fixos ou atratores, mas no fim ainda estamos analisando uma variedade probabilística formada a partir dos dados de entrada
    Raciocínio e dados estão entrelaçados, e uma separação completa é impossível
    Aprender (decompor) relações descontextualizadas — isso é justamente “decontextualization”. Mas, para que junto disso a análise faça sentido em novas situações ou domínios, “recontextualization” necessariamente precisa vir em seguida.
    Para uma explicação mais longa, veja https://news.ycombinator.com/item?id=42871894

    • Quando o conceito geral de “pensamento de raciocínio” é uma operação mental sobre a representação de proposições, acho difícil entender a afirmação de que “raciocínio verdadeiro é expresso por axiomas, não por probabilidade”
      Se animais não conseguissem lidar com enunciados proposicionais de forma minimamente não probabilística, isso significaria que o raciocínio lógico seria completamente impossível, o que não explica a capacidade real de raciocínio dos animais
      Ex.) “se a aranha entrou na caixa A, então ela não está na outra caixa” e outras estruturas lógicas simples desse tipo
  • Dados reais não estão de fato sobre variedades. Isso é só uma aproximação usada para facilitar a forma de pensar sobre os dados
    Quase todos os avanços úteis em deep learning foram feitos sem relação com topology. Deep learning é uma área empírica que avançou rapidamente por experimentação, tentativa e erro, e uma porção muito pequena de inspiração matemática — e nem era topologia

    • Discordo totalmente dessa afirmação. Claro que há muita tentativa e erro, mas trata-se de um efeito combinado de inúmeras teorias matemáticas, como topology, geometry, game theory, calculus, statistics etc. Só backpropagation já é a chain rule
      A área se popularizou e ficou lucrativa a ponto de muitos profissionais conseguirem usá-la facilmente sem conhecer as raízes teóricas do tema
      No fim, ao inventar teorias e técnicas, muitas vezes o que acontece é que se “redescobrem” e aplicam inconscientemente teorias já existentes de outros campos

    • Sobre a afirmação de que “essas inspirações originalmente não eram topology”, penso que esse tipo de “intuição matemática” costuma ser aplicado mais retrospectivamente. Depois que se encontra algum avanço em deep learning, pesquisadores de física ou matemática percebem mais tarde as semelhanças com métodos de suas áreas
      Como exemplo, há um texto dizendo que GPT é quase igual a um algoritmo que eu usava para resolver problemas de física no passado
      https://ondrejcertik.com/blog/2023/…

    • Estou na área de deep learning há mais de 10 anos, mas a afirmação de que “os dados não estão em variedades” está errada. Não é à toa que chamamos o espaço de embeddings de “espaço”. GAN, VAE, contrastive loss etc. realmente constroem uma estrutura de variedade vetorial pela qual é possível caminhar ou que pode ser manipulada

    • Se aceitarmos uma definição que permita erro de aproximação, então dá para dizer que dados reais estão sobre variedades. Artigo de referência: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)

    • Acho que deep learning, no estágio atual, é como alquimia
      Como a alquimia de antes do surgimento da química, que tinha uma base teórica. Às vezes penso que, um dia, a humanidade do futuro talvez deixe apenas a palavra “deep learning” como vestígio de uma linguagem antiga

  • Quando vi a frase “isso já chegou ao nível de AGI”, minha confiança caiu bastante
    No geral, a ideia do texto em si era interessante, mas achei uma pena a parte que tenta conectar isso com reasoning e a falta de uma discussão técnica mais aprofundada, ficando meio fluffy. Já existe pesquisa bem mais concreta do que isso (p.ex. https://arxiv.org/abs/1402.1869)

  • Outro tipo de topology muito discutido em DNN é justamente a topology da rede. Ou seja, a estrutura de como os nós estão conectados e como os dados fluem
    Autoencoders, CNNs, GANs etc. todos receberam inspiração biológica
    Ainda temos muito a aprender sobre a topology do cérebro e sua conectividade funcional
    No futuro, há grande chance de surgirem arquiteturas totalmente novas em termos de estrutura de conexão e interação dentro de camadas/nós individuais ou entre redes especializadas
    O cérebro humano, na verdade, também não é uma única rede, mas várias redes como a “Big 7” funcionando em paralelo e de forma interligada. Existem várias redes como DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network, e em muitos casos um neurônio pertence simultaneamente a várias redes
    Como ainda não reproduzimos plenamente essa complexidade em inteligência artificial, há um enorme campo de inspiração a tirar de network topologies
    Concordo com a frase “Topology is all you need”

  • A topologia matemática lida com objetos geométricos e transformações, mas em computação também é importante o conceito de “topologia” que define relações entre objetos abstratos
    Por exemplo, em estruturas de dados de grafos, armazenamos um conjunto de objetos (vértices) e um conjunto de relações (arestas) entre eles, e assim o próprio grafo vira uma estrutura topológica discreta
    A estrutura de dados de rede é parecida, mas cada aresta também armazena um valor. Ou seja, podemos ter um conjunto de vértices (objetos), as relações entre eles (arestas) e ainda valores por aresta (pesos). No fim, também dá para entender redes neurais artificiais nessa direção, como estruturas construídas sobre uma topologia discreta

  • Fiquei confuso com a parte do diagrama do autor em que AGI/ASI aparece como um ponto em uma variedade, junto com next token prediction, chat e modelos CoT. Dá para ver claramente que esses três últimos tipos pertencem ao mesmo sistema conectado, mas não sei se há base suficiente para incluir AGI/ASI nisso também
    Fico pensando no que aconteceria se, por mais manipulação topológica que um modelo baseado em CoT faça, ele nunca pudesse alcançar a “inteligência” de uma AGI por limitação estrutural
    Por exemplo, se a inteligência humana exige essencialmente capacidades sensoriais/internas de feedback de alto nível e processamento contínuo, então modelos autorregressivos tipo GPT são essencialmente descontínuos
    Do ponto de vista de um não especialista, há uma intuição de que LLMs pertencem quase a uma linhagem totalmente diferente de sistemas que geram “inteligência” ou “consciência”

    • Acho que isso pode acontecer. A própria definição de AGI/ASI é incerta
      Na verdade, eu acho que já chegamos à AGI, mas muita gente não concorda
      Houve a observação de que a essência da inteligência humana estaria em loops sofisticados de sensação/feedback ou em processamento contínuo, e, pela minha experiência considerável com pesquisa em connectomics, a semelhança entre sistemas biológicos e redes neurais também não pode ser ignorada
      Por exemplo, no sistema olfativo de camundongos, quando certos conjuntos de neurônios se ativam, detecta-se um odor específico (“chocolate”, “limão” etc.). Isso é bastante parecido com um vetor de features
      As representações neuronais no cérebro também têm semelhanças com representações por embeddings. É como se o embedding space fosse formado de acordo com quais neurônios estão ativados.
      O que acontece sobre embeddings não é “algo além disso”; é tudo processamento adicional