Deep learning é topologia aplicada

(theahura.substack.com)

7 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp

O deep learning pode ser visto como um processo de colocar dados sobre manifolds em espaços de alta dimensão e, por meio das transformações das camadas da rede neural, curvar ou esticar essa superfície para encontrar uma estrutura separável
Uma camada como tanh(Wx+b) é uma transformação contínua que encadeia transformação matricial, deslocamento de vetor e função não linear; ao empilhar várias camadas, até datasets complexos podem ser convertidos para outras formas
Mesmo dados circulares que não podem ser separados por uma única linha em baixa dimensão podem se tornar separáveis ao serem elevados para uma dimensão mais alta, e redes neurais podem aprender esse espaço de representação
Vetores de embedding representam texto, imagem e conceitos como pontos em um espaço numérico, e em superfícies bem formadas tornam possíveis operações conceituais como king - man + woman = queen
O treinamento atual de modelos de raciocínio pode ser interpretado como um processo de mover-se pelo manifold de raciocínio escolhendo bons reasoning traces, e o aprendizado por reforço no estilo DeepSeek R1 é tratado como uma forma de reduzir o custo dessa seleção manual

Redes neurais vistas pela topologia

Topologia é a área da matemática que trata de propriedades que permanecem as mesmas sob deformações como curvar, torcer e esticar, desde que a superfície não seja rasgada nem perfurada
Um círculo desenhado na superfície de argila não vira de repente uma linha, não se transforma em dois círculos e não cruza a si mesmo só porque foi girado ou deformado
Problemas de classificação de dados também podem ser vistos de forma parecida
- Mesmo que dados em um plano 2D não se separem de forma limpa com uma única linha, uma estrutura separável pode aparecer se a superfície for deformada de maneira adequada
- A ideia é que esse tipo de manipulação do espaço está no coração do deep learning

Camadas de rede neural são transformações contínuas que deformam superfícies

A explicação que vê redes neurais como uma pilha de álgebra linear está, em geral, correta, e matrizes podem ser interpretadas como operações que transformam superfícies geométricas
O texto de 2014 de Chris Olah também trata manifolds de deep learning dessa forma
A camada tanh(Wx+b) é composta de três etapas
- Transformação linear por W
- Translação pelo vetor b
- Distorção não linear gerada pela aplicação ponto a ponto de tanh
Ao empilhar essas transformações em várias camadas, até datasets complexos podem ser transformados em formas separáveis
Ainda assim, há casos topologicamente difíceis de separar com uma única linha, como pontos dentro de um círculo e pontos ao redor dele
- Nesse caso, ao subir de 2 dimensões para 3 dimensões, os dados podem se tornar claramente separáveis
- Uma separação impossível em baixa dimensão pode se tornar fácil em dimensão mais alta

Embeddings e manifolds semânticos

Grandes redes neurais podem ser vistas como geradores de topologia (topology generators)
- Recebem dados de entrada e encontram uma superfície que satisfaça as propriedades exigidas pela função de perda
- Em tarefas de classificação, aprendem a colocar cães e gatos em regiões diferentes do espaço
- Em tarefas de tradução, aprendem a colocar itens como bread e pan, ou uma foto de gato e cat, em posições próximas
- Em previsão do próximo token, aprendem uma superfície na qual os tokens são agrupados conforme a forma como são usados
Os dados estão sobre manifolds semanticamente relacionados e de alta dimensão, e construir manifolds está intimamente ligado a representar semanticamente um dataset
O exemplo das cores mostra que essa estrutura pode estar embutida nos próprios dados
- [128, 0, 0] representa vermelho, e [0, 0, 128] representa azul
- Somar os dois vetores pode produzir roxo
- A dimensionalidade da cor, a semelhança entre cores e a forma de misturá-las podem ser vistas como estruturas inerentes aos dados
Imagens também podem ser tratadas como pontos em um manifold
- Uma imagem é representada por valores de pixels RGB de tamanho Height x Width x 3
- Ao achatar isso em um único vetor, todas as imagens de um certo tamanho podem ser vistas como pontos em um espaço de alta dimensão
- A região de imagens de Brad Pitt comendo um sanduíche e a Mona Lisa podem ser pontos diferentes dentro do mesmo espaço de imagens
A maior parte do espaço de imagens é ruído, e agrupar apenas por semelhança de pixels não é útil
- Modelos de deep learning podem curvar e esticar a superfície das imagens para aproximar imagens de interesse e afastar o ruído
Dentro do modelo, informações como texto e imagem são representadas como listas numéricas chamadas vetores de embedding
- Cada embedding está ligado a um conceito e, ao mesmo tempo, é um ponto no espaço
- Em superfícies bem formadas, tornam-se possíveis operações matemáticas de conceito como king - man + woman = queen

Ver o aprendizado de raciocínio como movimento em um manifold

Na visão de que tudo está sobre manifolds, o raciocínio também pode ser pensado como um manifold
- Pode-se imaginar bons raciocínios agrupados em uma parte do espaço e maus raciocínios em outra
- Mesmo sem conseguir definir bom e ruim como termos matemáticos rigorosos, se for possível distingui-los, é possível treinar uma rede neural
Isso também pode ser interpretado como a direção em que grandes empresas de IA como Google, Anthropic, OAI e DeepSeek estão se movendo
Há a percepção de que a indústria de IA já extraiu praticamente tudo o que dava para obter apenas com estatísticas puras de linguagem
- A maioria dos LLMs é treinada com trilhões de tokens
- Mesmo aumentando para quadrilhões de tokens, o ganho adicional pode não ser grande
- Previsão do próximo token se parece com raciocínio, mas em si mesma tende mais a melhorar a própria previsão do próximo token do que a chegar ao raciocínio
instruction tuning e RLHF podem ser interpretados como formas de mover-se da região de previsão do próximo token para a região de raciocínio de perguntas e respostas
Chain of Thought é uma forma de mover-se de maneira mais explícita para a região de raciocínio do manifold de raciocínio
- O processo de pensamento exibido como Thinking… em modelos como o3 ou Gemini 2.5 é chamado de reasoning trace
- Ao executar muitas queries, é possível distinguir bons reasoning traces de ruins
- Por exemplo, se em 1 milhão de queries forem obtidos 10 mil traces muito bons, eles podem ser usados para treinar um novo modelo que gere apenas traces melhores
Ao repetir esse processo, é possível fazer bootstrap do próximo modelo a partir do anterior
- Se houver uma forma de julgar qual de dois reasoning traces é melhor, então dá para continuar se movendo pelo manifold de raciocínio
- Também dá para ver isso como usar 10 mil boas amostras como se tivessem vindo de um modelo virtualmente mais avançado e fazer distill-train do modelo atual
Aparece a afirmação de que essa abordagem teria sido suficiente para chegar à AGI, mas com a ressalva de que dizer que AGI já existe é controverso
Considera-se que isso não é suficiente para ASI
- A capacidade de selecionar o melhor raciocínio se torna o gargalo
- Reunir bons reasoning traces custa muito tempo e dinheiro
- Mesmo que muitas pessoas inteligentes passem o dia inteiro escolhendo, o resultado pode continuar subjetivo e cheio de ruído

DeepSeek R1, aprendizado por reforço e modelos que geram modelos

O DeepSeek R1 e outros métodos de aprendizado por reforço surgem na direção de não depender de humanos para escolher manualmente o bom raciocínio
A abordagem da DeepSeek se concentra em criar heurísticas quantitativas para bons raciocínios
- É possível criar testes unitários ou problemas de matemática que a IA precisa passar
- Se o código passa nos testes ou o problema de matemática é resolvido corretamente, então o reasoning trace que produziu essa saída pode ser considerado melhor do que um trace que produziu saída errada
- Não é necessária análise subjetiva do próprio reasoning trace
Considera-se que houve sucesso em treinar, apenas com RL, um modelo que se sai muito bem em um conjunto de tarefas de raciocínio
Ainda assim, só a abordagem com RL não chega à ASI
- Modelos com RL também acabam batendo em limites assintóticos
- Depois disso, faz-se a curadoria de reasoning traces gerados pelo modelo de RL para ajustar finamente um segundo modelo completamente diferente
- No fim, o DeepSeek está mais próximo de um método para gerar muitos reasoning traces de alta qualidade a um custo menor do que o trabalho humano direto do que de RL em si
A visão é que construir um sistema que diferencie raciocínio ruim de bom é mais fácil do que construir desde o início um sistema que raciocine bem
A própria rede neural também pode ser representada como um manifold
- Uma rede neural é uma lista de números de pesos organizados de uma determinada maneira
- Se todos os parâmetros forem achatados em um vetor, eles podem ser mapeados como um ponto em uma superfície
- Certas regiões podem corresponder a semantic segmentation, outras a text translation e outras a autoencoding
- Como os pesos finais de saída podem ser facilmente representados como tensores, é possível aplicar backprop diretamente sobre a saída
Propõe-se que o método de diffusion usado em geração de imagens também pode ser aplicado à geração de modelos
- Em diffusion, adiciona-se ruído a uma imagem de forma gradual e depois treina-se o modelo para reverter esse processo
- Pode-se adicionar ruído a vários checkpoints de camadas transformer pretrained do Hugging Face para criar um conjunto de treino para diffusion
- Se a descrição de um modelo pretrained for usada como condição em texto, é possível imaginar um modelo que gere outro modelo pretrained por diffusion a partir dessa descrição
- Sugere-se a possibilidade de inserir um prompt como "Spanish to English" e obter um modelo totalmente treinado sem treinamento adicional
Hoje a maioria dos modelos começa com inicialização aleatória, mas um modelo de diffusion que gere outros modelos pode ser melhor do que inicialização aleatória e reduzir bastante o tempo de treinamento
O deep learning continua sendo uma área informal por ainda carecer de uma boa teoria operacional sobre o que os modelos fazem e por que funcionam, e entender o espaço de embeddings topologicamente conecta vários desses conceitos

1 comentários

GN⁺ 2025-05-21

Opiniões do Hacker News

Como este texto é baseado no meu post de blog de 2014 (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/), deixo aqui um comentário
Tentei muito usar topologia como uma forma de entender redes neurais, e também escrevi textos de continuação: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
Houve pontos em que a perspectiva topológica foi útil, mas, depois de mais de 10 anos tentando entender o que acontece dentro das redes neurais, não consegui resultados tão grandes assim
O que foi muito mais produtivo foi a hipótese de representação linear, segundo a qual “conceitos/características correspondem a direções na rede neural”, e a ideia de circuitos, redes desses conceitos conectados
Textos relacionados incluem https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio...
- Há um mal-entendido frequente sobre formas de entender redes neurais: a ideia de que LLMs são, na prática, apenas modelos n-gram um pouco melhores, e a ideia de que, por apenas preverem o próximo token, os modelos necessariamente deveriam ser burros
  Fico me perguntando se a famosa reação[1] ao texto de Karpathy sobre RNNs[2] teve alguma responsabilidade por levar as pessoas a equiparar redes neurais de linguagem a modelos n-gram
  O artigo Stochastic Parrots[3] também equipara, em certa medida, LLMs e modelos n-gram, no sentido de que “tinha principalmente modelos n-gram em mente, mas as conclusões continuam adequadas e relevantes”
  Parece que houve uma época em que os dois eram mais parecidos, antes de as redes neurais ficarem realmente boas
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- Venho acompanhando a linha de pesquisa de circuits há alguns anos, e a hipótese de representação linear me parece muito convincente
  Também deixei nas minhas anotações um rascunho de resenha de Toy Models of Superposition
  Ainda assim, acho circuits menos convincente porque a análise parece especialmente presa demais à arquitetura Transformer
  Fico pensando se a hipótese de representação linear não varia conforme a arquitetura. GAN, VAE, CLIP etc. parecem modelar variedades de forma explícita
  Mesmo modelos simples, por pressão de otimização, devem acabar dobrando características suficientemente semelhantes para a mesma direção linear
  É difícil conciliar a evidência empírica de que modelos simples colocam características semelhantes em direções ortogonais com a hipótese da variedade, mas isso no fim parece ter mais a ver com a função de perda que está sendo otimizada
  Em Toy Models of Superposition, usa-se MSE, fazendo o modelo aprender, na prática, uma tarefa de regressão/compressão de autoencoder, então é natural que os padrões de interferência entre características que aparecem juntas se tornem importantes
  Por outro lado, em outros objetivos, como perda contrastiva, acho que o mesmo comportamento de minimização de interferência não apareceria
- Depois de estudar topologia pela primeira vez em 2011, tentei várias vezes “aplicar” topologia a problemas do mundo real, e minha experiência foi parecida
  Hoje já fico hesitante até diante da expressão comum de que “dados reais são suaves e próximos de variedades de baixa dimensão”
  Gostaria de investigar direito até que ponto essa afirmação se aplica a dados reais e o quanto ela é distorcida pelos métodos de redução de dimensionalidade usados para lidar de forma eficiente com datasets naturais, mas falta tempo
- Na física, é interessante que simetrias globais diferentes ou variedades topológicas diferentes possam satisfazer a mesma estrutura métrica, isto é, a mesma geometria local
  Por exemplo, a mesma solução de tensor métrico das equações de campo de Einstein pode existir sobre variedades topologicamente diferentes
  Por outro lado, olhando para as soluções do Ising Model, a mesma topologia de rede pode ter várias soluções diferentes e, se o sistema estiver perto do ponto crítico, a própria topologia da rede às vezes nem importa
  É só uma analogia, mas sugere que os detalhes interessantes da dinâmica não estão embutidos na topologia do sistema. É um problema mais complexo
- Houve algumas pequenas discussões no HN sobre textos antigos
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - fevereiro de 2019, 25 comentários
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - julho de 2015, 7 comentários
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - abril de 2014, 29 comentários
Se fosse realmente topologia, não seria necessário entortar uma variedade para fazer busca por similaridade. Isso está mais perto de geometria com métrica
Como na realidade, precisamos ser capazes de comparar coisas
Como transformações topológicas da variedade também ocorrem durante o treinamento, fico curioso para saber como a topologia evolui durante o treinamento
Imagino que ela mude de forma intensa no começo, depois se estabilize, e então venha um ajuste fino geométrico
Artigos relacionados incluem Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042) e Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9)
- Se você já mexeu com GAN ou VAE, dá para responder a essa pergunta na prática. A resposta, em geral, fica mais para “sim”
  Você pode observar GANs em vários checkpoints durante o treinamento e usar ferramentas como UMAP ou t-SNE para ver como pontos diferentes em um espaço de alta dimensão se movem
  Também é verdade que, depois das mudanças intensas no início, há estabilização e ajuste fino geométrico, mas as mudanças iniciais também são influenciadas pela taxa de aprendizado e pela escolha do otimizador
- Se for para ser preciso, acho que está mais perto de álgebra linear aplicada. Só que, chamado assim, soa menos exótico
O texto em si foi bom, mas não entendo por que chamar de “topologia” a ideia de encontrar uma superfície de separação que divide dois conjuntos de pontos
Aparece uma frase do tipo “ao aprender tradução inglês-espanhol ou conversão imagem-texto, aprende-se uma topologia em que bread fica perto de pan e a foto de um gato fica perto da palavra cat”, mas isso está mais para algo de que a topologia não trata
A noção de pontos estarem “perto” ou “longe” pertence ao domínio da métrica, não da topologia
Se dois pontos são próximos em um espaço topológico, é possível esticar o espaço, mantendo o mesmo espaço topológico, e ainda assim deixar os dois pontos distantes
Esse é justamente o ponto central da piada de que uma xícara de café e um donut são a mesma coisa
No geral, parece mais próximo de uma aplicação prática da geometria algébrica, buscando algo como uma variedade algébrica em que os pontos fiquem próximos. No fim, parece uma questão de geometria e de distância entre pontos
- Dizer “isso não é algo de que a topologia trate” está 100% correto
  Mas, como o texto trata tanto de topologia quanto de deep learning, só espero que a confusão clara fique limitada a um dos dois, isto é, à topologia
- Nessa frase, “topology” foi usado de forma mais coloquial. O correto teria sido “surface”
- Com uma definição mais frouxa, a topologia pode, sim, ser vista como o estudo de espaços que têm alguma noção de proximidade e distância. Mesmo sem uma métrica
  O conceito central de vizinhança na topologia de conjuntos de pontos captura a ideia de estar perto de algum ponto e permite definir coisas que precisam de uma noção de proximidade, como continuidade ou convergência de sequências
  A Wikipedia [0] também explica que, por meio do conceito de conjunto aberto, é possível tornar precisas as ideias de “próximo”, “arbitrariamente pequeno” e “distante”
  Se você muda a definição de conjuntos abertos, também mudam as funções contínuas, os conjuntos compactos e os conjuntos conexos; cada escolha de definição de conjuntos abertos é chamada de topologia
  Espaços métricos são uma classe importante de espaços topológicos em que se pode definir, entre pares de pontos, uma distância real não negativa, isto é, uma métrica
  Não quero dizer que a topologia seja a melhor lente para entender redes neurais, e o autor também disse nos comentários que mudou de ideia. Aqui, eu só queria corrigir o mal-entendido
  [0] https://en.wikipedia.org/wiki/General_topology
O título, como está, é banal e errado, mas o texto em si foi agradável de ler
Topologia é a estrutura mínima que sobra depois de remover da geometria distância, ângulo, direção e todo tipo de esticamento que não rasgue
É o mínimo que continua válido mesmo depois dessas deformações drásticas
É verdade que conceitos topológicos são úteis em machine learning, mas coisas como escala, distância e ângulo normalmente fornecem muita informação essencial sobre os dados
Se você está tentando distinguir um gato malhado de um tigre e ignora o tamanho, isso é uma bobagem
A topologia é especialmente útil quando não se pode confiar em comprimento, distância, ângulo ou deformações arbitrárias
Esses casos existem, mas afirmar que deep learning é topologia aplicada é absurdo e quase idiota
- Os dados de entrada estão em uma variedade pouco confiável. O fato de, no espaço de pixels, uma imagem de uma lata de Coca-Cola estar perto de uma imagem de uma placa de pare não tem, a priori, nenhum significado
  Redes neurais aplicam justamente todas essas transformações drásticas
- Quando se entra nos detalhes, muitas coisas que não importariam se fosse topologia pura passam a importar. Desde o número de camadas até a resolução de quantização/fp têm efeito
- A palavra “topology” também tem uma definição legítima de dicionário que não inclui nenhuma das condições que você está exigindo agora. Parece que você deixou passar que há duas definições
Obrigado por compartilhar; eu também costumo ver o aprendizado pela perspectiva das variedades. É uma forma de representação poderosa
Escrevi bastante no meu diário sobre a parte “em um espaço de dimensão suficientemente alta, isso se torna indistinguível de inferência” e também já escrevi no HN sob o nome de “variedade de inferência probabilística”
Essa variedade é construída aprendendo um espaço de padrões descontextualizados a partir de um conjunto de entradas dado
Por causa da natureza intrinsecamente probabilística da amostragem, a inferência real é expressa em probabilidades, não em axiomas
É possível descobrir axiomas ao encontrar pontos fixos ou atratores na variedade, mas, em última análise, o que estamos vendo é uma variedade probabilística construída a partir do conjunto de entradas
Só que não acho possível separar essa “inferência” dos dados de entrada
Uma variedade de inferência suficientemente avançada talvez consiga encontrar estruturas como “meta-inferência” em qualquer lugar, mas essas estruturas altamente descontextualizadas podem ser completamente inúteis se não forem recontextualizadas de forma adequada
No fim, para ser uma variedade útil no processamento de algum tipo de entrada, os padrões dessa entrada precisam seguir uma regra subjacente aprendível

Se a descontextualização é o aprendizado — isto é, decompor aspectos da entrada em relações independentes de contexto —, a recontextualização é a outra metade: a capacidade de transformar relações independentes de contexto, muito abstratas e às vezes impossíveis de representar, em análises úteis em um novo domínio
Comentário completo: https://news.ycombinator.com/item?id=42871894

Fico me perguntando se estão falando de inferência em geral, isto é, inferência como processo mental que opera sobre representações de proposições
Se for isso, é difícil entender a afirmação de que “a inferência real é expressa por probabilidades, não por axiomas”
Uma das características da inferência é justamente que ela não funciona desse jeito
É muito improvável que animais não tenham nenhuma capacidade de operar de forma não probabilística sobre proposições que representam. Isso é essencial para a inferência correta e também é uma capacidade relativamente trivial de fornecer
Por exemplo, algo como “se a aranha está dentro da boxA, então ela não está em nenhum outro lugar”
Os dados não estão realmente em uma variedade. Isso é apenas uma aproximação para pensar sobre os dados
Quase tudo, talvez 100%, do que foi útil em deep learning surgiu sem pensar em topologia
Deep learning, mais do que ser uma aplicação de alguma coisa, é em grande parte um campo empírico que avançou por tentativa e erro e experimentação
Houve alguma intuição vinda da teoria, mas essa teoria não era topologia
- Discordo totalmente. É verdade que há muita tentativa e erro, mas deep learning é mais uma mistura de teorias de várias áreas da matemática, incluindo topologia, geometria, teoria dos jogos, cálculo, estatística etc.
  Até o elemento mais básico, a retropropagação, é apenas a aplicação da regra da cadeia aos pesos
  A diferença é que deep learning se tornou tão acessível — e, mais precisamente, tão lucrativo — que muitos profissionais conseguem aprender o assunto sem aprender as origens do formalismo
  No fim, acabam usando ou “reinventando” teorias e técnicas que já existiam havia muito tempo em outras áreas, sem conhecer sua origem
- A “intuição” vinda da teoria me parece posterior ao fato. Só depois que o deep learning cria algum método é que pesquisadores de outras áreas científicas percebem as semelhanças entre a abordagem de deep learning e seus métodos antigos
  Como exemplo, há um texto em que o autor descobriu que GPT era, na verdade, o mesmo problema computacional que ele já havia resolvido em física: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- Como alguém que trabalha com deep learning há mais de 10 anos, acho essa afirmação bastante errada. É evidente que os dados vivem em variedades, e isso também se aplica a aplicações de deep learning
  Um exemplo é o blog de Chris Olah de 2014, linkado no meu texto: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  Há uma razão para chamarmos o espaço de embeddings de “espaço”
  GANs, VAEs e perdas contrastivas são todos problemas de construir variedades vetoriais pelas quais se pode caminhar e gerar diferentes tipos de dados
- Isso é alquimia
  O deep learning em sua forma atual tem, em relação a uma teoria de base hipotética, uma relação parecida com a que a alquimia tem com a química
  Daqui a algumas centenas de anos, estudantes do ensino médio falantes de inuktitut da civilização posterior à nossa aprenderão que a palavra estranha “deep learning” era um resquício da antiga língua franca
- Se afrouxarmos a definição para permitir erro de aproximação, podemos considerar que os dados estão em uma variedade. Por exemplo, vale consultar Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning (https://aclanthology.org/2021.acl-long.568.pdf)
Minha confiança despencou no momento em que li a frase “isso já foi suficiente para chegar até a AGI”
No geral, a ideia é boa, mas o texto é bastante vago, especialmente na parte que a conecta à inferência
Há trabalho técnico sério nessa área que expande e torna essa ideia mais concreta, como https://arxiv.org/abs/1402.1869
Outra topologia que encontramos em redes neurais profundas é a topologia da rede. Isso significa a estrutura da rede: como os nós se conectam e como os dados fluem
Já há exemplos bem conhecidos inspirados pela biologia, como autoencoders, redes neurais convolucionais (CNNs) e redes generativas adversariais (GANs)
Mas ainda temos muito a aprender sobre a topologia do cérebro e sua conectividade funcional
No futuro, é muito provável que descubramos novas estruturas tanto dentro de camadas/nós individuais quanto na forma como redes especializadas se conectam e interagem entre si
O cérebro não depende de uma única rede; ele opera várias redes em paralelo, frequentemente chamadas de “Big 7”, e as interconecta profundamente
Entre elas estão a Default Mode Network (DMN), a Central Executive Network (CEN), a Limbic Network etc.
Na prática, um único neurônio pode pertencer a várias redes e desempenhar funções diferentes em cada uma
Em sistemas artificiais, ainda não replicamos suficientemente esse nível de complexidade, e ainda há muito a aprender e muita inspiração a tirar dessa “topologia de rede”
Portanto, “Topology is all you need” :-)
O problema é a premissa de que “se você consegue distinguir o bom do ruim, pode treinar uma rede neural para organizar sua topologia por conta própria”
Cerca de 10 anos atrás, vi um projeto que treinava uma rede para inferir sexo biológico a partir de fotos de rosto
Para reduzir viés, eles removiam cuidadosamente maquiagem, bigode, cabelo etc., mas a acurácia ficava em torno de 70% a 80%
Na época, isso parecia um ótimo resultado, e eles miravam 99%
A primeira coisa que fiz depois de ler o artigo foi procurar trabalhos sobre humanos tentando acertar o sexo biológico em fotos parecidas
Humanos também não iam muito melhor, e a diferença entre humanos e máquinas era de cerca de 1% a 2%
Perguntei às pessoas que tocavam o projeto como elas haviam demonstrado que essa distinção era possível apenas por fotos, mas elas não entenderam a pergunta e simplesmente presumiram que era possível
No fim, não conseguiram melhorar os resultados. Pode ser que tenham ensinado mal a rede neural, mas, quando os marcadores de sexo são removidos, muitos rostos podem simplesmente ser andróginos
Trago essa anedota porque a suposição deles me parecia bastante razoável

Na maioria das situações, ao olhar para o rosto de alguém, dá para supor o que há dentro da calça dessa pessoa; portanto, partiu-se da ideia de que essa informação estaria no rosto
Mas, em um contexto em que os livros didáticos são reescritos todos os anos, tenta-se calcular a “meia-vida do conhecimento”, a disciplina chamada filosofia ainda não terminou, e todos os dias há disputas políticas e ideológicas sobre o que é o melhor, a suposição de que podemos, de algum modo, separar bom e ruim é muito, muito irracional

No fim, nem sequer é racional pressupor que exista esse tipo de distinção entre “bom” e “ruim”
O diagrama que afirma que AGI/ASI são pontos em uma variedade, como previsão do próximo token, modelos de chat e modelos CoT, é confuso
Talvez seja possível provar que os três últimos fazem parte da mesma variedade, mas não sei qual é a base para colocar AGI/ASI ali também
Não seria possível que modelos capazes de CoT, por mais manipulações topológicas que sofram, nunca cheguem a um processo que possa ser considerado AGI?
Por exemplo, a inteligência humana, que é o mais próximo de AGI que conhecemos, requer loops de feedback sensoriais e internos extremamente complexos e processamento contínuo, ao contrário do processamento discreto dos modelos autorregressivos
Como intuição de leigo, parece que LLMs não pertencem de forma alguma à mesma linhagem de sistemas capazes de gerar inteligência ou consciência
- É possível. AGI/ASI têm definições ruins. Pessoalmente, tendo a achar que já alcançamos AGI, embora, claro, muita gente não concorde
  Acho que a explicação de que a inteligência humana requer loops de feedback sensoriais/internos complexos e processamento contínuo acaba obscurecendo modos pelos quais redes neurais e redes biológicas são, na prática, bastante parecidas
  Já fiz bastante pesquisa em connectômica e, por exemplo, no sistema olfativo de camundongos, dependendo de quais neurônios disparam, surge algo como um vetor de características
  Quando um determinado conjunto de neurônios dispara, isso significa algo como “chocolate” ou “limão”
  De forma mais geral, representações neuronais parecem se assemelhar em certa medida a representações por embeddings, e é possível imaginar a construção de um espaço de embeddings com base em onde e quais neurônios disparam
  Tudo sobre embeddings é “apenas” processamento