- Grandes experimentos confirmaram que diversos modelos de deep learning, mesmo quando treinados com dados e inicializações diferentes, convergem para um subespaço de parâmetros comum de baixa dimensão
- A análise espectral de mais de 1.100 modelos (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B etc.) mostrou que a maior parte da variância se concentra em algumas poucas direções de componentes principais
- Esse subespaço universal (Universal Subspace) é formado de acordo com a arquitetura do modelo e aparece repetidamente, independentemente dos dados ou da inicialização
- Essa estrutura tem grande potencial em compressão de modelos, aprendizado eficiente em parâmetros, fusão de modelos e inferência rápida
- O estudo oferece novas pistas para compreender a estrutura intrínseca e a capacidade de generalização das redes neurais, podendo servir de base importante para o futuro projeto de algoritmos de treinamento eficientes
Descoberta do subespaço universal
- Foi observado que redes de deep learning treinadas com diferentes datasets, inicializações e hiperparâmetros convergem para um subespaço comum de baixa dimensão
- Esse fenômeno aparece como uma estrutura de baixo posto semelhante por arquitetura e por camada
- Mesmo com dados de treino ou funções de perda diferentes, a mesma tendência estrutural é mantida
- Os resultados da análise espectral indicam que, embora o espaço de pesos de cada tarefa pareça diferente, na prática ele existe como parte de um espaço compartilhado de baixa dimensão
- Esses resultados são apresentados como evidência capaz de explicar por que modelos superajustados generalizam, por que diferentes inicializações convergem para representações semelhantes e por que o fine-tuning eficiente em parâmetros funciona
Experimentos em larga escala e análise
- O estudo analisou mais de 1.100 modelos, incluindo 500 adaptadores Mistral-7B LoRA, 500 Vision Transformer e 50 modelos LLaMA3-8B
- Cada modelo foi treinado sob diferentes datasets e condições de inicialização
- Segundo a análise de componentes principais (PCA), poucas componentes principais explicam a maior parte da variância, sugerindo a existência de um subespaço compartilhado de baixo posto
- Em especial, até 500 modelos ViT com inicialização aleatória convergiram para o mesmo subespaço de baixa dimensão, o que é interpretado como uma propriedade fundamental das redes neurais
Modelagem teórica e formulação matemática
- O estudo modela os preditores como elementos em um espaço de Hilbert (Hilbert space) e analisa as condições para recuperar um subespaço comum entre várias tarefas
- A partir do preditor de cada tarefa ( f_t^* ), define-se um operador de segundo momento comum S, e demonstra-se que o operador aproximado ( \tilde{S} ), obtido dos preditores aprendidos ( \hat{f_t} ), converge para S
- O Theorem 2.5 mostra que o subespaço aprendido converge para o subespaço comum real, e que a taxa de convergência é determinada pelo número de tarefas (T) e pela precisão de estimação de cada tarefa (η)
- Quanto maior o intervalo entre autovalores (γₖ), mais estável é a recuperação do subespaço
Possibilidades de aplicação e impacto
- Ao aproveitar o subespaço compartilhado, tornam-se possíveis aplicações como:
- compressão de modelos ao armazenar apenas os coeficientes do subespaço em vez dos pesos completos
- adaptação rápida a novas tarefas dentro do subespaço aprendido
- fornecimento de insights teóricos sobre limites de generalização e a paisagem de otimização
- redução do custo computacional de treinamento e inferência, com potencial de reduzir emissões de carbono
- Essa estrutura também pode aumentar a eficiência em reutilização de modelos, aprendizado multitarefa e fusão de modelos
Próximos desafios de pesquisa
- As diferenças entre subespaços universais de arquiteturas distintas e sua possibilidade de otimização geométrica permanecem como questões em aberto
- Se todas as redes convergirem para o mesmo subespaço, a falta de diversidade causada pelo compartilhamento de vieses e modos de falha pode se tornar um novo gargalo
- Pesquisas futuras precisarão desenvolver formas de dispersar intencionalmente essa convergência
Resumo das principais contribuições
- Demonstra empiricamente a existência de um subespaço universal de baixa dimensão no espaço de parâmetros de redes de deep learning
- Apresenta um método para aprender um subespaço compartilhado aproximado a partir de conjuntos variados de tarefas
- Verifica que, usando o subespaço aprendido, é possível adaptar-se eficientemente a novas tarefas com poucos parâmetros
- Aponta potencial de uso em compressão de modelos, treinamento e inferência rápidos e escalabilidade eficiente
1 comentários
Comentários no Hacker News
A expressão “500 Vision Transformers” foi confusa
Na prática, significa 500 versões do mesmo modelo-base ajustadas por fine-tuning
Esses modelos foram baixados de contas anônimas de usuários no Hugging Face, e o termo “universal” na verdade se aplica praticamente só a um único modelo pré-treinado
Não é surpreendente que modelos ajustados por fine-tuning, como com LoRA, sejam parecidos entre si
Aliás, um dos modelos citados no artigo, CheXpert-ViT-U-MultiClass, aparece no Hugging Face com alerta de malware
No começo eu achei que eles tinham encontrado um subespaço comum entre arquiteturas diferentes, o que me deixou confuso, mas no fim a ideia é só estabilidade dentro da mesma classe de modelo
Ainda assim, no fim das contas isso só confirma algo meio óbvio: “a função de perda tem mínimos bem definidos”, então o nome “hipótese do subespaço universal de pesos” soa um pouco exagerado
Não é tão prático quanto LoRA no momento, mas pode abrir caminho para pesquisas futuras
Ajustando com 500 conjuntos de dados, pareceria que isso formaria um espaço de 500 dimensões, mas na prática converge para um subespaço de cerca de 40 dimensões
Ou seja, os pesos ajustados podem ser comprimidos em 40 números reais
Talvez um dia o Hugging Face mostre o tamanho dos modelos em unidades de “160 bytes”
Ainda assim, esses vetores de base continuam tendo o tamanho do modelo, e é preciso assumir que a dimensionalidade não aumenta à medida que os datasets crescem
É uma pena que os autores tenham usado modelos aleatórios, mas espero que isso leve a trabalhos futuros sobre treinar modelos grandes do zero
Além disso, acho que o artigo também analisou modelos treinados do zero
Acho que a parte mais importante do artigo são estas duas frases
Primeiro, projetar os pesos de 5 novos modelos ViT em um subespaço universal de 16 dimensões não causou perda de acurácia
Segundo, foi possível substituir 500 modelos ViT por um único modelo de subespaço universal, reduzindo o uso de memória em 100 vezes
Em outras palavras, eles encontraram estrutura comum em 50 modelos LLaMA3-8B, 177 GPT-2 e 8 Flan-T5, e o desempenho foi mantido mesmo usando isso no lugar dos modelos originais
Em analogia, é como descobrir um dicionário do bzip2 capaz de comprimir todos os arquivos em 99%
A ideia é que modelos convergem para o mesmo espaço até uma transformação linear
Por exemplo, encoders siameses usando perda MSE convergem para o mesmo espaço latente mesmo sem decoder
Portanto, Transformers treinados em dados parecidos também provavelmente chegam ao mesmo espaço no nível de transformação linear
Nesse sentido, esse resultado não é surpreendente, e eu diria que uma prova matemática, como a deste artigo, é ainda mais importante
Por exemplo, seria possível inicializar novos modelos a partir desse subconjunto universal de pesos? E isso vale só para certas arquiteturas?
Talvez seja bug no código ou um valor escolhido arbitrariamente
Tive a sensação de que o artigo vendeu demais a “universalidade”
No caso de CNNs, o fato de filtros convergirem para formas Laplacianas/Gabor vem de um forte viés indutivo
Transformers não têm esse tipo de restrição de localidade, então o subespaço só pôde ser encontrado por meio de inicialização compartilhada (fine-tuning)
No fim, essa “universalidade” não é uma propriedade essencial do aprendizado, mas o resultado de restrições estruturais + estabilidade do pré-treinamento
Essa abordagem parece muito melhor do que LoRA e talvez também possa ser usada para acelerar a inferência
É possível que modelos grandes já usem algo assim internamente
O ponto central é que eles encontraram um subconjunto de parâmetros envolvido na transferência de capacidade para novas tarefas
Isso não se aplica a tarefas completamente novas, mas funciona dentro do mesmo domínio
Como na analogia do GPT 5.1, isso lembra uma expressão de base usada para ajustar “expressões faciais” no rigging de personagens 3D
A ideia é que as tarefas possíveis dentro das leis da física são finitas, e a maioria nem faz sentido
O conceito de “subespaço universal” descrito no artigo não ficou claro
Como eles compararam apenas modelos da mesma família, não existe subespaço comum entre arquiteturas diferentes, como ViT e GPT-2
O fato de os resultados de PCA caírem em forma logarítmica é algo esperado
Além disso, em multiplicação de matrizes, trocar linhas/colunas ainda permite reverter o resultado, então modelos treinados de forma totalmente independente não podem compartilhar exatamente as mesmas direções de subespaço
Se os modelos convergem naturalmente para um espaço de baixa dimensão, então talvez dê para começar o treinamento dentro desse espaço e acelerar bastante o processo
Em teoria, seria necessária uma prova matemática como a deste artigo
Impressiona terem chegado a esse resultado com muito menos recursos que OpenAI ou Google
Fiquei pensando em como essa estrutura poderia evoluir com algoritmos genéticos (GA)
Na verdade, sempre que aparece assunto de redes neurais eu acabo pensando em GA
Cruzamento (crossover) e mutação fazem sentido intuitivamente, mas backpropagation ainda me parece difícil
A ideia é decompor matrizes de pesos em padrões espectrais e buscar nesse espaço comprimido
Talvez também dê para codificar modelos grandes existentes em forma comprimida e usá-los como ponto de partida para mutações
Se isso evoluir, talvez seja possível até descobrir novos mecanismos de forma evolutiva
Link do EvoLisa
Não tem nada a ver com treinamento de LLMs, mas em certo sentido me passa uma sensação parecida
Fiquei curioso sobre a relação com a “Platonic Representation Hypothesis”
Vendo o ressurgimento recente desse tipo de discurso platônico, parece que estamos convergindo para alguma intuição mais fundamental
Estruturas de representação compartilhadas podem ser boas candidatas a categorias platônicas
Deve haver um mapeamento interessante entre os dois conceitos
Em certo sentido, ele fornece evidência empírica para a hipótese anterior
Houve também a especulação, em tom de piada, de que “talvez todos os modelos sejam basicamente versões ajustadas do LLaMA”
Os autores afirmam ter analisado vários modelos de fine-tuning de baixa rank (low-rank fine-tune) e encontrado uma estrutura compartilhada de baixa rank
Isso depende do modelo-base e lembra o fato de a variação genética humana poder ser expressa por poucas componentes principais
No fim, talvez isso aconteça justamente porque existe uma ancestralidade compartilhada