- A Hipótese da Representação Platônica (Platonic Representation Hypothesis) afirma que, à medida que os modelos de IA ficam maiores e mais inteligentes, eles convergem internamente para espaços de representação semelhantes
- Por meio do conceito de compressão (compression) em modelos de linguagem, interpreta-se a inteligência como capacidade de compressão de dados, explicando por que os métodos tendem a se tornar mais parecidos quando os modelos generalizam
- Ao analisar o problema de inversão de embeddings (embedding inversion), a PRH sugere que é possível alinhar espaços de embedding entre modelos diferentes com técnicas como CycleGAN
- Experimentos com Sparse Autoencoder mostram que redes muito diferentes entre si acabam descobrindo os mesmos conceitos ou conceitos semelhantes, bem como circuitos parecidos
- Esses insights ampliam as possibilidades de aplicação prática, como a decifração de escritas antigas ainda não interpretadas ou de linguagens animais
Introdução: o jogo Mussolini ou Bread e o compartilhamento de significado
- O autor usa como exemplo o jogo “Mussolini ou Bread”, no qual se vai restringindo repetidamente o escopo das perguntas para inferir o objeto em que a outra pessoa está pensando
- Esse jogo é possível porque existe um espaço semântico comum (semantics) entre as pessoas
- Destaca-se que pessoas diferentes, mesmo sem regras explícitas, em geral entendem intuitivamente o que é semanticamente “próximo”
Semântica universal: a compressão do mundo e dos modelos
- Assim como nesse jogo, o cérebro humano constrói de forma semelhante modelos complexos do mundo real
- Sob uma perspectiva algorítmica da IA, ela aprende comprimindo ao máximo os dados do mundo
- A tarefa de gerar linguagem natural pode ser vista, em essência, como um trabalho de compressão baseado em distribuições de probabilidade (teoria da informação de Shannon)
- Quanto melhor o modelo comprime os dados, mais profundamente ele parece entender o mundo real
- Na prática, modelos de linguagem maiores mostram melhor capacidade de compressão de dados e maior inteligência
- Quando o dataset fica tão grande que memorizar pontos de dados individuais se torna impossível, o modelo começa a combinar os dados e generalizar
Hipótese da Representação Platônica (Platonic Representation Hypothesis)
- Pesquisadores do MIT formalizaram a "Platonic Representation Hypothesis" em 2024
- Segundo essa hipótese, à medida que a escala dos modelos de IA cresce, aumenta o número de características compartilhadas (features), e os espaços de representação passam a ficar alinhados de forma semelhante
- Isso já vem sendo observado experimentalmente em diferentes domínios, como linguagem e visão
- A expectativa é que, com os modelos ficando maiores e mais eficientes a cada ano, a similaridade entre espaços de representação continue aumentando
O problema da inversão de embeddings (embedding inversion)
- O autor relata sua experiência pesquisando o problema da inversão de embeddings, isto é, inferir de volta o texto de entrada real a partir de vetores de embedding
- Em casos como o ImageNet, já havia exemplos de reconstrução de informações próximas da imagem original apenas a partir de probabilidades
- Embeddings de linguagem natural parecem conter muita informação, mas, como textos semelhantes têm embeddings semelhantes, a inferência inversa exata é muito difícil
- Para isso, o autor constatou que técnicas de iterative refinement, com busca e otimização repetidas sobre embeddings, são eficazes para se aproximar gradualmente de textos cada vez mais corretos
- Com esse método, demonstrou-se a possibilidade de inversão com mais de 94% de precisão em nível de sentenças longas
Generalizando a inversão de embeddings com a hipótese platônica
- No entanto, os métodos existentes só podiam ser aplicados a um modelo de embedding específico e tinham limitações com modelos novos ou proprietários
- Se a PRH estiver correta, será possível criar um inversor universal de embeddings que funcione entre diversos modelos
- Dado um conjunto de embeddings A e B de modelos diferentes, sem pares conhecidos, o autor pesquisou por anos como alinhar esses espaços com uma abordagem de CycleGAN
- Como resultado, foi possível converter entre dois espaços de embedding por meio de unsupervised matching, sem fine-tuning adicional (vec2vec)
- Isso demonstrou que é possível traduzir embeddings de bases de dados arbitrárias ou inferi-los de volta mesmo sem informações individuais sobre cada embedding
Interpretabilidade mecanicista: Universal Circuits
- Também em estudos de circuitos no campo da interpretabilidade mecanicista (Mechanistic Interpretability), foram encontradas funções internas comuns mesmo quando a estrutura dos modelos é diferente
- Resultados com Sparse Autoencoder (SAE) mostraram que, mesmo treinados independentemente em modelos diferentes, há uma sobreposição considerável em features interpretáveis
- Ao comparar as features de dois SAEs, torna-se possível fazer alinhamento conceitual entre modelos
- Se a PRH for ainda mais precisa do que se pensa, espera-se que esse fenômeno fique mais evidente em modelos mais poderosos
Implicações práticas e perspectivas
- A hipótese da representação platônica, além de suas profundas implicações filosóficas, tem potencial prático em interpretação de modelos, inversão, decodificação de sinais e restauração de linguagem
- À medida que as técnicas de interpretação avançarem, prevê-se que em modelos maiores será cada vez mais comum encontrar alinhamento de espaços de representação e padrões internos compartilhados
- Isso pode tornar possível, no futuro, decifrar escritas antigas antes insolúveis, como o Linear A, ou interpretar linguagens animais (como vocalizações de baleias)
- Métodos atuais como o vec2vec ainda têm fragilidades, mas já mostram sucesso considerável em embeddings baseados na internet e em imagem-texto
- Isso também sugere a possibilidade futura de decodificar transições entre espaços de diferentes línguas e até conversões de linguagem de baleia para linguagem humana
1 comentários
Comentários do Hacker News