1 pontos por GN⁺ 2025-07-19 | 1 comentários | Compartilhar no WhatsApp
  • A Hipótese da Representação Platônica (Platonic Representation Hypothesis) afirma que, à medida que os modelos de IA ficam maiores e mais inteligentes, eles convergem internamente para espaços de representação semelhantes
  • Por meio do conceito de compressão (compression) em modelos de linguagem, interpreta-se a inteligência como capacidade de compressão de dados, explicando por que os métodos tendem a se tornar mais parecidos quando os modelos generalizam
  • Ao analisar o problema de inversão de embeddings (embedding inversion), a PRH sugere que é possível alinhar espaços de embedding entre modelos diferentes com técnicas como CycleGAN
  • Experimentos com Sparse Autoencoder mostram que redes muito diferentes entre si acabam descobrindo os mesmos conceitos ou conceitos semelhantes, bem como circuitos parecidos
  • Esses insights ampliam as possibilidades de aplicação prática, como a decifração de escritas antigas ainda não interpretadas ou de linguagens animais

Introdução: o jogo Mussolini ou Bread e o compartilhamento de significado

  • O autor usa como exemplo o jogo “Mussolini ou Bread”, no qual se vai restringindo repetidamente o escopo das perguntas para inferir o objeto em que a outra pessoa está pensando
  • Esse jogo é possível porque existe um espaço semântico comum (semantics) entre as pessoas
  • Destaca-se que pessoas diferentes, mesmo sem regras explícitas, em geral entendem intuitivamente o que é semanticamente “próximo”

Semântica universal: a compressão do mundo e dos modelos

  • Assim como nesse jogo, o cérebro humano constrói de forma semelhante modelos complexos do mundo real
  • Sob uma perspectiva algorítmica da IA, ela aprende comprimindo ao máximo os dados do mundo
  • A tarefa de gerar linguagem natural pode ser vista, em essência, como um trabalho de compressão baseado em distribuições de probabilidade (teoria da informação de Shannon)
  • Quanto melhor o modelo comprime os dados, mais profundamente ele parece entender o mundo real
  • Na prática, modelos de linguagem maiores mostram melhor capacidade de compressão de dados e maior inteligência
  • Quando o dataset fica tão grande que memorizar pontos de dados individuais se torna impossível, o modelo começa a combinar os dados e generalizar

Hipótese da Representação Platônica (Platonic Representation Hypothesis)

  • Pesquisadores do MIT formalizaram a "Platonic Representation Hypothesis" em 2024
  • Segundo essa hipótese, à medida que a escala dos modelos de IA cresce, aumenta o número de características compartilhadas (features), e os espaços de representação passam a ficar alinhados de forma semelhante
  • Isso já vem sendo observado experimentalmente em diferentes domínios, como linguagem e visão
  • A expectativa é que, com os modelos ficando maiores e mais eficientes a cada ano, a similaridade entre espaços de representação continue aumentando

O problema da inversão de embeddings (embedding inversion)

  • O autor relata sua experiência pesquisando o problema da inversão de embeddings, isto é, inferir de volta o texto de entrada real a partir de vetores de embedding
  • Em casos como o ImageNet, já havia exemplos de reconstrução de informações próximas da imagem original apenas a partir de probabilidades
  • Embeddings de linguagem natural parecem conter muita informação, mas, como textos semelhantes têm embeddings semelhantes, a inferência inversa exata é muito difícil
  • Para isso, o autor constatou que técnicas de iterative refinement, com busca e otimização repetidas sobre embeddings, são eficazes para se aproximar gradualmente de textos cada vez mais corretos
  • Com esse método, demonstrou-se a possibilidade de inversão com mais de 94% de precisão em nível de sentenças longas

Generalizando a inversão de embeddings com a hipótese platônica

  • No entanto, os métodos existentes só podiam ser aplicados a um modelo de embedding específico e tinham limitações com modelos novos ou proprietários
  • Se a PRH estiver correta, será possível criar um inversor universal de embeddings que funcione entre diversos modelos
  • Dado um conjunto de embeddings A e B de modelos diferentes, sem pares conhecidos, o autor pesquisou por anos como alinhar esses espaços com uma abordagem de CycleGAN
  • Como resultado, foi possível converter entre dois espaços de embedding por meio de unsupervised matching, sem fine-tuning adicional (vec2vec)
  • Isso demonstrou que é possível traduzir embeddings de bases de dados arbitrárias ou inferi-los de volta mesmo sem informações individuais sobre cada embedding

Interpretabilidade mecanicista: Universal Circuits

  • Também em estudos de circuitos no campo da interpretabilidade mecanicista (Mechanistic Interpretability), foram encontradas funções internas comuns mesmo quando a estrutura dos modelos é diferente
  • Resultados com Sparse Autoencoder (SAE) mostraram que, mesmo treinados independentemente em modelos diferentes, há uma sobreposição considerável em features interpretáveis
  • Ao comparar as features de dois SAEs, torna-se possível fazer alinhamento conceitual entre modelos
  • Se a PRH for ainda mais precisa do que se pensa, espera-se que esse fenômeno fique mais evidente em modelos mais poderosos

Implicações práticas e perspectivas

  • A hipótese da representação platônica, além de suas profundas implicações filosóficas, tem potencial prático em interpretação de modelos, inversão, decodificação de sinais e restauração de linguagem
  • À medida que as técnicas de interpretação avançarem, prevê-se que em modelos maiores será cada vez mais comum encontrar alinhamento de espaços de representação e padrões internos compartilhados
  • Isso pode tornar possível, no futuro, decifrar escritas antigas antes insolúveis, como o Linear A, ou interpretar linguagens animais (como vocalizações de baleias)
  • Métodos atuais como o vec2vec ainda têm fragilidades, mas já mostram sucesso considerável em embeddings baseados na internet e em imagem-texto
  • Isso também sugere a possibilidade futura de decodificar transições entre espaços de diferentes línguas e até conversões de linguagem de baleia para linguagem humana

1 comentários

 
GN⁺ 2025-07-19
Comentários do Hacker News
  • O fenômeno de todo mundo aprender conceitos parecidos como “cachorro”, “casa”, “pessoa” e “barco” é muito interessante, quase como a teoria das Ideias de Platão; mesmo crescendo em ambientes diferentes e sem sobreposição de experiências observadas, no fim chegamos a um acordo sobre os mesmos conceitos. Modelos de linguagem de grande porte (LLMs) também mostram um aprendizado parecido, mas isso é menos surpreendente do que em humanos porque os dados de treino dos LLMs se sobrepõem muito. Se valores universais como moral ou virtude, como a “Ideia do Bem” apontada por Platão, realmente existirem, espera-se que possamos ensinar esses valores aos LLMs para que os sigam ou recusem pedidos contrários.
    • Conceitos como “bom” ou “justo” são muito mais complexos dependendo da situação. Podemos concordar sobre objetos simples como barcos ou casas, mas em questões morais como aborto, eutanásia e experimentação com animais ou células-tronco, há diferenças sérias de perspectiva até dentro da mesma sociedade. Como exemplo, vale ver a imagem com resultados de uma pesquisa Gallup de 2010.
    • A expressão “mais ou menos” está fazendo trabalho demais para sustentar a afirmação de que Platão estava certo. Vivemos em uma realidade compartilhada com as mesmas leis físicas, pressões evolutivas etc., então há um número limitado de formas de um barco flutuar na água. Isso não significa que existam Ideias platônicas reais e que todos cheguem aos mesmos conceitos. Na prática, até palavras como “liberdade”, “economia” e “governo” têm definições e interpretações diferentes para cada pessoa, e embora a gramática seja a mesma e pareça semelhante por fora, os conceitos reais são todos distintos.
    • No fim, eu entendo isso como o conceito de arquétipo de Jung.
  • Exemplos de converter embeddings de volta em texto não sustentam a ideia de um “modelo estatístico da realidade compartilhada”. É difícil até imaginar a versão em linguagem de baleia de “Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby”, e Kentucky, Derby, calendário gregoriano, Estados Unidos e raças de cavalo são todos artefatos que se tornaram importantes por contingências históricas e culturais da humanidade. No fim, isso é apenas um fenômeno estatístico de todos estarem sendo treinados no mesmo monte de dados e, por isso, ficarem parecidos.
    • Independentemente de o Kentucky Derby ser ou não “essencial à realidade”, para modelar a realidade com 100% de precisão você precisa saber sobre o Kentucky Derby. O autor argumenta que os modelos acabam convergindo para representações ultimamente próximas das Ideias platônicas. Se houvesse um modelo totalmente autônomo com convertibilidade perfeita, talvez ele pudesse transmitir em alto nível conceitos como “corrida de cavalos” ou “o cavalo que venceu a corrida”. Quer a teoria das Ideias de Platão esteja certa ou não, outra questão separada é se os LLMs atuais realmente conseguem fazer tudo isso.
    • Não faz sentido afirmar que a realidade é toda cultural; isso se aplica igualmente a fatos científicos, e a gravidade existe mesmo que uma baleia não conheça a palavra ciência. Se um LLM tivesse aprendido apenas a teoria da gravidade de Newton e então surgisse a relatividade geral (GR) de Einstein, a capacidade explicativa da GR sobre a realidade não mudaria só porque não está nos dados de treino. E embora seja impossível traduzir GR para canto de baleia, ainda daria para transmiti-la por inglês-chinês-modelo de ML-conceito no cérebro, e esse é justamente o “modelo estatístico compartilhado da realidade”. Mesmo que você não consiga traduzir GR para balbucio de bebê, a realidade da GR não muda.
    • É difícil dizer que LLMs estão convergindo para um modelo estatístico da realidade; na prática, eles estão convergindo apenas para um modelo estatístico dos dados de treino. O conjunto é tão grande que às vezes parece que eles encontraram algo comum a todos os textos. Isso não parece algo que vá revelar a verdade essencial da realidade, mas pode revelar fenômenos como “quando usamos esta expressão idiomática, todo mundo entende este sentido”.
    • Traduzir a frase “Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby” para grego ou para algumas línguas indígenas modernas também é quase impossível. Como não existe nenhum contexto compartilhado sobre essa cultura, é preciso um glossário, ou então o próprio LLM precisa atuar como glossário para que a frase seja entendida. Dito isso, os melhores LLMs atuais conseguem explicar conceitos do micro ao macro, como QCD, gravidade e fenômenos culturais, e se fosse necessário traduzir para uma língua completamente nova, talvez fosse possível fornecer apenas os conceitos básicos e construir a estrutura aos poucos. No fim, o fato de LLMs conseguirem fazer tradução entre línguas humanas de forma básica sem supervisão separada também vem dessa capacidade.
    • Essa questão pode ser verificada com facilidade treinando dois modelos com datasets totalmente diferentes, por exemplo, um só com textos da China antiga e outro só com grego antigo, e observando se estruturas parecidas aparecem.
  • A expectativa de que “podemos traduzir linguagem de baleia ou línguas antigas” é otimista demais. O mais importante em linguagem é o contexto. A IA é boa com linguagem porque existem bilhões de textos deixados por humanos com base em experiências; baleias não têm esse tipo de dado.
    • Isso levanta a pergunta: “Se um leão pudesse falar, nós o entenderíamos?”
    • O mundo ao nosso redor é uma experiência compartilhada entre humanos, baleias e outros animais, e levando isso em conta, existe algum ponto compartilhado também entre baleias e humanos.
    • O importante é saber se existe um “espaço de representação compartilhado entre línguas”. Se existir, dá para aprender separadamente a estrutura de cada língua e o mapeamento de tradução. Esta última parte, que alguém chamou de “inversor universal de embeddings”, talvez seja mais fácil de aprender, e se a estrutura for suficientemente distinta, ela poderia ser mapeada para um espaço comum de representação e aproveitada. Se for possível traduzir sem contexto — ainda que isso seja uma especulação esperançosa — vale pesquisar sem preconceito.
    • Se ensinássemos gorilas ou elefantes, ambos muito inteligentes, a nomear objetos e usar símbolos, eles também poderiam transmitir experiência e sabedoria entre gerações, e talvez demonstrassem silenciosamente uma inteligência comparável à nossa. Tenho interesse no projeto com golfinhos do Google Gemma, mas, como humanos são animais terrestres, gostaria que elefantes fossem escolhidos como objeto de estudo em vez de golfinhos. Assim seria possível obter feedback imediato da pesquisa em terra e focar mais na pesquisa básica.
  • Esse tipo de abordagem só funciona quando a distribuição de características e as relações semânticas de cada fonte são suficientemente parecidas. Em jogos MB (como Mussolini vs Bread e outros jogos de raciocínio por comparação), tudo falha se a outra pessoa escolhe alguém que eu não conheço. Talvez eu nem consiga captar a referência, ou minha noção de distância semântica seja diferente. Especialistas se entendem melhor com especialistas, e leigos com leigos, no mesmo nível. A decifração de documentos antigos também sofre com isso: se uma civilização antiga se concentrava em conceitos totalmente diferentes dos atuais, entendê-los com embeddings semânticos modernos se torna quase impossível.
    • Jogando MB com amigos — quando é uma pessoa, nunca consegui acertar direito até o fim nem uma vez.
  • No exemplo do jogo Mussolini vs Bread, deduzir que “isso com certeza é uma pessoa” não se sustenta logicamente. Também pode haver mais respostas assim entre animais.
    • A piada aqui é que David Beckham parece menos humano e mais, digamos, comparável à encarnação do mal.
    • A lógica é frágil, mas o ponto principal é justamente que as pessoas conseguem inferir a resposta mesmo com esse tipo de explicação insuficiente. Isso significa que existe um espaço semântico fuzzy compartilhado pelos humanos.
    • Também penso como o autor. Minha palavra seria “arma” ou “artilharia”, e isso também poderia atravessar esse furo lógico. E esse exemplo também sugere por que busca puramente por embeddings não resolve sozinha o problema de RAG (retrieval-augmented generation).
    • Perdoem os pequenos erros de lógica.
    • Também pode surgir uma resposta estranha como Oswald Mosley.
  • Não concordo com a afirmação de que “o motivo de esse jogo funcionar é que as coisas do mundo se relacionam de uma única maneira”. Existem relações variadas, e essas relações também surgem da realidade em que vivemos. Parece que a palavra “maneira” foi usada com vários sentidos, e a citação está ambígua, o que gera confusão.
  • Concordo que LLMs, como obra coletiva da humanidade, estão convergindo para uma representação da realidade atual. Agora só falta dar à IA entrada sensorial em tempo real, hormônios virtuais com meias-vidas diferentes baseadas em fala e consumo de energia, um loop de pensamento contínuo e até psilocibina artificial para induzir conexões neurais criativas. Se existe uma teoria do macaco chapado para a humanidade, precisamos de uma teoria da IA chapada.
    • Talvez a gente pudesse usar IA como atração de parque temático e dar ao Anthony Hopkins controle do código-fonte. O que poderia dar errado?
    • Já cansei de ler texto sobre IA, mas se aparecesse uma manchete dizendo “demos cogumelos à IA”, eu clicaria na hora.
  • Ao ler que “não consegui entender nada quando Ilya fez uma apresentação sobre inteligência-compressão”, pensei se Marcus Hutter não foi simplesmente esquecido. Nesse caso, acho que vale muito a pena revisitar também o Hutter Prize.
  • Fiz perguntas sobre efeito piezoelétrico para Grok, o3-pro e Claude. Todos deram respostas corretas, mas só o Claude apontou até os efeitos de segunda ordem que aparecem em casos de uso reais. Os três modelos podem estar explorando o mesmo espaço, mas o Claude apresentou uma perspectiva um nível mais profunda.
    • Tenho uma curiosidade: queria saber se era o Grok 3 ou 4.
  • O Tao que pode ser dito não é o Tao eterno. Se você perguntar o que é o Tao, eu diria que é “vontade” — a vontade pode ser expressa por humanos também em linguagem. A mesma vontade pode ser expressa em chinês, japonês ou inglês; a linguagem é apenas uma representação diferente. Modelos de linguagem de grande porte também aprendem a vontade por meio de tokens de palavras e, quando passam a expressá-la, realizam o Tao. Nesse sentido, concordo com a afirmação de que “os modelos de IA podem ser essencialmente todos iguais”.