2 pontos por GN⁺ 2025-12-11 | 1 comentários | Compartilhar no WhatsApp
  • Grandes experimentos confirmaram que diversos modelos de deep learning, mesmo quando treinados com dados e inicializações diferentes, convergem para um subespaço de parâmetros comum de baixa dimensão
  • A análise espectral de mais de 1.100 modelos (500 Mistral-7B LoRA, 500 Vision Transformer, 50 LLaMA-8B etc.) mostrou que a maior parte da variância se concentra em algumas poucas direções de componentes principais
  • Esse subespaço universal (Universal Subspace) é formado de acordo com a arquitetura do modelo e aparece repetidamente, independentemente dos dados ou da inicialização
  • Essa estrutura tem grande potencial em compressão de modelos, aprendizado eficiente em parâmetros, fusão de modelos e inferência rápida
  • O estudo oferece novas pistas para compreender a estrutura intrínseca e a capacidade de generalização das redes neurais, podendo servir de base importante para o futuro projeto de algoritmos de treinamento eficientes

Descoberta do subespaço universal

  • Foi observado que redes de deep learning treinadas com diferentes datasets, inicializações e hiperparâmetros convergem para um subespaço comum de baixa dimensão
    • Esse fenômeno aparece como uma estrutura de baixo posto semelhante por arquitetura e por camada
    • Mesmo com dados de treino ou funções de perda diferentes, a mesma tendência estrutural é mantida
  • Os resultados da análise espectral indicam que, embora o espaço de pesos de cada tarefa pareça diferente, na prática ele existe como parte de um espaço compartilhado de baixa dimensão
  • Esses resultados são apresentados como evidência capaz de explicar por que modelos superajustados generalizam, por que diferentes inicializações convergem para representações semelhantes e por que o fine-tuning eficiente em parâmetros funciona

Experimentos em larga escala e análise

  • O estudo analisou mais de 1.100 modelos, incluindo 500 adaptadores Mistral-7B LoRA, 500 Vision Transformer e 50 modelos LLaMA3-8B
    • Cada modelo foi treinado sob diferentes datasets e condições de inicialização
  • Segundo a análise de componentes principais (PCA), poucas componentes principais explicam a maior parte da variância, sugerindo a existência de um subespaço compartilhado de baixo posto
  • Em especial, até 500 modelos ViT com inicialização aleatória convergiram para o mesmo subespaço de baixa dimensão, o que é interpretado como uma propriedade fundamental das redes neurais

Modelagem teórica e formulação matemática

  • O estudo modela os preditores como elementos em um espaço de Hilbert (Hilbert space) e analisa as condições para recuperar um subespaço comum entre várias tarefas
  • A partir do preditor de cada tarefa ( f_t^* ), define-se um operador de segundo momento comum S, e demonstra-se que o operador aproximado ( \tilde{S} ), obtido dos preditores aprendidos ( \hat{f_t} ), converge para S
  • O Theorem 2.5 mostra que o subespaço aprendido converge para o subespaço comum real, e que a taxa de convergência é determinada pelo número de tarefas (T) e pela precisão de estimação de cada tarefa (η)
  • Quanto maior o intervalo entre autovalores (γₖ), mais estável é a recuperação do subespaço

Possibilidades de aplicação e impacto

  • Ao aproveitar o subespaço compartilhado, tornam-se possíveis aplicações como:
    • compressão de modelos ao armazenar apenas os coeficientes do subespaço em vez dos pesos completos
    • adaptação rápida a novas tarefas dentro do subespaço aprendido
    • fornecimento de insights teóricos sobre limites de generalização e a paisagem de otimização
    • redução do custo computacional de treinamento e inferência, com potencial de reduzir emissões de carbono
  • Essa estrutura também pode aumentar a eficiência em reutilização de modelos, aprendizado multitarefa e fusão de modelos

Próximos desafios de pesquisa

  • As diferenças entre subespaços universais de arquiteturas distintas e sua possibilidade de otimização geométrica permanecem como questões em aberto
  • Se todas as redes convergirem para o mesmo subespaço, a falta de diversidade causada pelo compartilhamento de vieses e modos de falha pode se tornar um novo gargalo
  • Pesquisas futuras precisarão desenvolver formas de dispersar intencionalmente essa convergência

Resumo das principais contribuições

  • Demonstra empiricamente a existência de um subespaço universal de baixa dimensão no espaço de parâmetros de redes de deep learning
  • Apresenta um método para aprender um subespaço compartilhado aproximado a partir de conjuntos variados de tarefas
  • Verifica que, usando o subespaço aprendido, é possível adaptar-se eficientemente a novas tarefas com poucos parâmetros
  • Aponta potencial de uso em compressão de modelos, treinamento e inferência rápidos e escalabilidade eficiente

1 comentários

 
GN⁺ 2025-12-11
Comentários no Hacker News
  • A expressão “500 Vision Transformers” foi confusa
    Na prática, significa 500 versões do mesmo modelo-base ajustadas por fine-tuning
    Esses modelos foram baixados de contas anônimas de usuários no Hugging Face, e o termo “universal” na verdade se aplica praticamente só a um único modelo pré-treinado
    Não é surpreendente que modelos ajustados por fine-tuning, como com LoRA, sejam parecidos entre si
    Aliás, um dos modelos citados no artigo, CheXpert-ViT-U-MultiClass, aparece no Hugging Face com alerta de malware

    • Essa explicação deixou mais claro o que o artigo quer dizer com “subespaço universal”
      No começo eu achei que eles tinham encontrado um subespaço comum entre arquiteturas diferentes, o que me deixou confuso, mas no fim a ideia é só estabilidade dentro da mesma classe de modelo
      Ainda assim, no fim das contas isso só confirma algo meio óbvio: “a função de perda tem mínimos bem definidos”, então o nome “hipótese do subespaço universal de pesos” soa um pouco exagerado
    • Os resultados de fine-tuning eram previsíveis, mas o experimento com ResNet treinada do zero (Figura 2, Seção 3.2.1) foi mais interessante
      Não é tão prático quanto LoRA no momento, mas pode abrir caminho para pesquisas futuras
    • Cada fine-tuning desloca os pesos do modelo-base em uma direção específica
      Ajustando com 500 conjuntos de dados, pareceria que isso formaria um espaço de 500 dimensões, mas na prática converge para um subespaço de cerca de 40 dimensões
      Ou seja, os pesos ajustados podem ser comprimidos em 40 números reais
      Talvez um dia o Hugging Face mostre o tamanho dos modelos em unidades de “160 bytes”
      Ainda assim, esses vetores de base continuam tendo o tamanho do modelo, e é preciso assumir que a dimensionalidade não aumenta à medida que os datasets crescem
      É uma pena que os autores tenham usado modelos aleatórios, mas espero que isso leve a trabalhos futuros sobre treinar modelos grandes do zero
    • Fico em dúvida sobre por que consideram os modelos parecidos se eles foram treinados com dados diferentes
      Além disso, acho que o artigo também analisou modelos treinados do zero
    • Eles trataram de modelos Mistral e LLaMA, mas chamar isso de “universal” parece exagero
  • Acho que a parte mais importante do artigo são estas duas frases
    Primeiro, projetar os pesos de 5 novos modelos ViT em um subespaço universal de 16 dimensões não causou perda de acurácia
    Segundo, foi possível substituir 500 modelos ViT por um único modelo de subespaço universal, reduzindo o uso de memória em 100 vezes
    Em outras palavras, eles encontraram estrutura comum em 50 modelos LLaMA3-8B, 177 GPT-2 e 8 Flan-T5, e o desempenho foi mantido mesmo usando isso no lugar dos modelos originais
    Em analogia, é como descobrir um dicionário do bzip2 capaz de comprimir todos os arquivos em 99%

    • Como pano de fundo teórico relacionado, existe o artigo arXiv:2007.00810
      A ideia é que modelos convergem para o mesmo espaço até uma transformação linear
      Por exemplo, encoders siameses usando perda MSE convergem para o mesmo espaço latente mesmo sem decoder
      Portanto, Transformers treinados em dados parecidos também provavelmente chegam ao mesmo espaço no nível de transformação linear
      Nesse sentido, esse resultado não é surpreendente, e eu diria que uma prova matemática, como a deste artigo, é ainda mais importante
    • Fico curioso sobre como essa “commonality” pode ser usada na prática
      Por exemplo, seria possível inicializar novos modelos a partir desse subconjunto universal de pesos? E isso vale só para certas arquiteturas?
    • Se os modelos ocupam naturalmente um subespaço espectral compartilhado, isso poderia reduzir bastante o custo de treinamento e o espaço de armazenamento
    • A afirmação de que “16 dimensões bastam” chamou atenção
    • Mas o número 16 é limpo demais para não levantar suspeitas
      Talvez seja bug no código ou um valor escolhido arbitrariamente
  • Tive a sensação de que o artigo vendeu demais a “universalidade”
    No caso de CNNs, o fato de filtros convergirem para formas Laplacianas/Gabor vem de um forte viés indutivo
    Transformers não têm esse tipo de restrição de localidade, então o subespaço só pôde ser encontrado por meio de inicialização compartilhada (fine-tuning)
    No fim, essa “universalidade” não é uma propriedade essencial do aprendizado, mas o resultado de restrições estruturais + estabilidade do pré-treinamento

    • Mesmo assim, é surpreendente e interessante que exista uma linha de pesquisa assim
  • Essa abordagem parece muito melhor do que LoRA e talvez também possa ser usada para acelerar a inferência
    É possível que modelos grandes já usem algo assim internamente
    O ponto central é que eles encontraram um subconjunto de parâmetros envolvido na transferência de capacidade para novas tarefas
    Isso não se aplica a tarefas completamente novas, mas funciona dentro do mesmo domínio
    Como na analogia do GPT 5.1, isso lembra uma expressão de base usada para ajustar “expressões faciais” no rigging de personagens 3D

    • Também houve a provocação filosófica: “existem mesmo tarefas completamente novas?”
      A ideia é que as tarefas possíveis dentro das leis da física são finitas, e a maioria nem faz sentido
    • Na prática, parece funcionar até certo ponto em tarefas novas também
  • O conceito de “subespaço universal” descrito no artigo não ficou claro
    Como eles compararam apenas modelos da mesma família, não existe subespaço comum entre arquiteturas diferentes, como ViT e GPT-2
    O fato de os resultados de PCA caírem em forma logarítmica é algo esperado
    Além disso, em multiplicação de matrizes, trocar linhas/colunas ainda permite reverter o resultado, então modelos treinados de forma totalmente independente não podem compartilhar exatamente as mesmas direções de subespaço

    • No fim, isso parece mais uma técnica de compressão de modelos do que “universalidade” em sentido filosófico
  • Se os modelos convergem naturalmente para um espaço de baixa dimensão, então talvez dê para começar o treinamento dentro desse espaço e acelerar bastante o processo

    • Assim como encoders siameses chegam ao mesmo espaço latente ao usar a mesma função de perda, os Transformers também podem seguir princípio parecido
      Em teoria, seria necessária uma prova matemática como a deste artigo
    • É interessante que isso tenha sido feito na JHU
      Impressiona terem chegado a esse resultado com muito menos recursos que OpenAI ou Google
    • Mas, se esse espaço comum realmente existe, talvez também exista um limite para a capacidade de representação do modelo
    • Ou então seria possível projetar novas arquiteturas que usem as propriedades desse subespaço diretamente como viés indutivo
  • Fiquei pensando em como essa estrutura poderia evoluir com algoritmos genéticos (GA)
    Na verdade, sempre que aparece assunto de redes neurais eu acabo pensando em GA

    • Tenho apego por GA por causa de Artificial Life, do Levy, que li quando era criança
      Cruzamento (crossover) e mutação fazem sentido intuitivamente, mas backpropagation ainda me parece difícil
    • Recentemente venho experimentando GA com codificação indireta, e este artigo parece reforçar essa direção
      A ideia é decompor matrizes de pesos em padrões espectrais e buscar nesse espaço comprimido
      Talvez também dê para codificar modelos grandes existentes em forma comprimida e usá-los como ponto de partida para mutações
      Se isso evoluir, talvez seja possível até descobrir novos mecanismos de forma evolutiva
    • Agora que existe esse objetivo, parece um bom momento para voltar a explorar GA e outros métodos não baseados em aprendizado
    • Eu já fui obcecado pelo projeto EvoLisa
      Link do EvoLisa
      Não tem nada a ver com treinamento de LLMs, mas em certo sentido me passa uma sensação parecida
    • Em vez de GA, eu me sinto mais atraído por quantização vetorial (vector quantization)
  • Fiquei curioso sobre a relação com a “Platonic Representation Hypothesis”

    • Queria que alguém mais inteligente do que eu respondesse
      Vendo o ressurgimento recente desse tipo de discurso platônico, parece que estamos convergindo para alguma intuição mais fundamental
    • As duas hipóteses são intimamente relacionadas
      Estruturas de representação compartilhadas podem ser boas candidatas a categorias platônicas
      Deve haver um mapeamento interessante entre os dois conceitos
    • O artigo arXiv:2405.07987 segue essa mesma linha
      Em certo sentido, ele fornece evidência empírica para a hipótese anterior
  • Houve também a especulação, em tom de piada, de que “talvez todos os modelos sejam basicamente versões ajustadas do LLaMA”

  • Os autores afirmam ter analisado vários modelos de fine-tuning de baixa rank (low-rank fine-tune) e encontrado uma estrutura compartilhada de baixa rank
    Isso depende do modelo-base e lembra o fato de a variação genética humana poder ser expressa por poucas componentes principais
    No fim, talvez isso aconteça justamente porque existe uma ancestralidade compartilhada