30 pontos por GN⁺ 2025-03-18 | 1 comentários | Compartilhar no WhatsApp
  • Há a percepção de que o fenômeno de generalização dos modelos de deep learning é diferente dos modelos anteriores e algo misterioso
  • Overfitting, double descent e overparametrization são frequentemente citados como características do deep learning
  • No entanto, esses fenômenos não se limitam às redes neurais e podem ser explicados por frameworks antigos de generalização, como PAC-Bayes e limites para hipóteses contáveis
  • O conceito de "soft inductive biases" é o princípio-chave para explicar esses fenômenos de generalização

Soft Inductive Biases

  • Os vieses indutivos tradicionais restringem o espaço de hipóteses para melhorar o desempenho de generalização
  • Soft inductive biases mantêm a flexibilidade do espaço de hipóteses enquanto atribuem preferência a determinadas soluções
  • Assim como o compartilhamento de parâmetros em CNNs preserva localidade e invariância a translação, adicionam uma regularização suave para certas propriedades
  • Mesmo em modelos overparameterized, o desempenho de generalização é bom porque soft inductive biases estão em ação

Frameworks de generalização

PAC-Bayes e limites para hipóteses contáveis

  • PAC-Bayes explica o risco de generalização em termos de risco empírico e compressibilidade do modelo
  • Mesmo modelos grandes podem ter boa generalização garantida se forem simples e compressíveis
  • Fórmula:
    • risco esperado ≤ risco empírico + termo relacionado à compressibilidade

Dimensionalidade efetiva

  • Dimensionalidade efetiva = número de autovalores grandes da Hessiana da função de perda do modelo
  • Quanto menor a dimensionalidade efetiva, mais simples é o modelo e melhor tende a ser sua generalização

Outros frameworks de generalização

  • Complexidade de Rademacher, dimensão VC etc. não explicam bem os fenômenos do deep learning
  • PAC-Bayes e limites para hipóteses contáveis podem resolver esse problema

Principais fenômenos

Benign overfitting

  • Fenômeno em que o modelo aprende perfeitamente até o ruído e ainda assim apresenta boa generalização
  • Benign overfitting também pode ser reproduzido com modelos lineares simples
  • Pode ser explicado por PAC-Bayes e por limites para hipóteses contáveis

Overparametrization

  • O modelo mantém excelente generalização mesmo quando o número de parâmetros é maior que o número de dados
  • Isso acontece porque modelos grandes podem ser comprimidos em estruturas mais simples após o treinamento, favorecendo a generalização

Double descent

  • Fenômeno em que, à medida que a complexidade do modelo aumenta, a perda diminui, depois aumenta e volta a diminuir
  • Também pode ser reproduzido em modelos lineares
  • Pode ser explicado pela dimensionalidade efetiva e pela compressibilidade do modelo

Visão alternativa

  • A visão tradicional de que a generalização no deep learning é misteriosa depende de frameworks de generalização limitados
  • Com PAC-Bayes e limites para hipóteses contáveis, esses fenômenos de generalização podem ser explicados
  • A percepção de que a generalização no deep learning é misteriosa pode ser um preconceito equivocado

Elementos distintivos do deep learning

Aprendizado de representações

  • Redes neurais têm a capacidade de aprender similaridade nos dados
  • Em dados de alta dimensionalidade, podem medir similaridade melhor do que a distância euclidiana
  • Isso favorece interpolação e extrapolação em alta dimensionalidade

Aprendizado universal

  • Modelos de deep learning apresentam bom desempenho de forma consistente em diversos domínios
  • Têm desempenho excelente em transfer learning e in-context learning

Conectividade entre modos

  • Modelos treinados a partir de inicializações diferentes podem ser conectados ao longo de curvas simples
  • Isso é explorado em técnicas de treinamento como SWA (Stochastic Weight Averaging)

Conclusão e perspectivas

  • Benign overfitting, overparametrization e double descent não são fenômenos exclusivos de redes neurais
  • Eles podem ser explicados por PAC-Bayes e por limites para hipóteses contáveis
  • O deep learning se diferencia por características como aprendizado de representações, aprendizado universal e conectividade entre modos
  • O desempenho de generalização decorre não da complexidade do modelo, mas de sua compressibilidade e simplicidade

1 comentários

 
GN⁺ 2025-03-18
Opinião do Hacker News
  • Se você tem interesse em machine learning, a aula "Probability for computer scientists" de Stanford é um excelente recurso

    • Essa aula aborda em profundidade a teoria das probabilidades e os fundamentos teóricos de machine learning
    • As aulas do Andrew Ng também são famosas, mas exigem entendimento matemático de álgebra linear
    • Para deep learning, a introdução visual do 3b1b é útil
  • Estabilidade algorítmica oferece uma explicação mais convincente do que descendentes de PAC-Bayes ou da teoria VC

    • Materiais relacionados podem ser encontrados em artigos no arXiv
  • Se você quer entender machine learning, recomendo "The StatQuest Illustrated Guide to Machine Learning", do Josh Starmer

    • Ele é um excelente professor que expressa ideias complexas de forma clara e concisa
    • O formato lembra um livro infantil, então é fácil de ler e entender
    • Também recomendo o livro recente dele sobre redes neurais
  • DNN não tem nenhuma capacidade especial de generalização

    • Na verdade, sua generalização pode ser mais fraca do que a de técnicas matematicamente mais fundamentadas, como SVM
    • Se você treinar uma DNN com o conjunto de dados "Wine Quality" do repositório de machine learning da UCI, terá resultados ruins e overfitting
    • A "mágica" dos LLMs vem do paradigma de treinamento
    • É possível usar modelos enormes sem overfitting ao utilizar conjuntos de dados gigantescos
    • Há 10 anos, o princípio de "reusabilidade" ainda não estava claro
  • Em vez de limitar o espaço de hipóteses para evitar overfitting, é importante aceitar um espaço de hipóteses flexível e preferir soluções simples que sejam compatíveis com os dados

    • Existe a questão de como o deep learning faz isso
    • No passado, usava-se uma abordagem de verossimilhança com penalização
    • Ficava a impressão de que, em deep learning, a forma de penalizar a complexidade era mais complicada e menos intuitiva
  • Quando comecei em deep learning, aprender a prova do teorema da aproximação universal foi de grande ajuda

    • Entender por que redes neurais conseguem aproximar funções torna mais fácil compreender tudo o que é construído em cima disso
  • Um exemplo interessante em que redes "profundas" são necessárias é discutido em um artigo recente sobre RNNs

    • Os modelos minGRU e minLSTM não modelam explicitamente dependências de estado, mas conseguem aprendê-las se forem profundos o suficiente
  • Existe a ideia de coletar dados de texto e criar um algoritmo de previsão armazenando a distância entre palavras

    • Fico curioso sobre o quão próximo isso está do GPT 2
  • Fico curioso sobre onde está a fronteira do que é definido e regulado como 'IA'

  • Um neurônio artificial é basicamente uma regressão linear tornada não linear pela adição de uma função de ativação

    • Quando isso é organizado em uma rede, surgem resultados interessantes