- Há a percepção de que o fenômeno de generalização dos modelos de deep learning é diferente dos modelos anteriores e algo misterioso
- Overfitting, double descent e overparametrization são frequentemente citados como características do deep learning
- No entanto, esses fenômenos não se limitam às redes neurais e podem ser explicados por frameworks antigos de generalização, como PAC-Bayes e limites para hipóteses contáveis
- O conceito de "soft inductive biases" é o princípio-chave para explicar esses fenômenos de generalização
Soft Inductive Biases
- Os vieses indutivos tradicionais restringem o espaço de hipóteses para melhorar o desempenho de generalização
- Soft inductive biases mantêm a flexibilidade do espaço de hipóteses enquanto atribuem preferência a determinadas soluções
- Assim como o compartilhamento de parâmetros em CNNs preserva localidade e invariância a translação, adicionam uma regularização suave para certas propriedades
- Mesmo em modelos overparameterized, o desempenho de generalização é bom porque soft inductive biases estão em ação
Frameworks de generalização
PAC-Bayes e limites para hipóteses contáveis
- PAC-Bayes explica o risco de generalização em termos de risco empírico e compressibilidade do modelo
- Mesmo modelos grandes podem ter boa generalização garantida se forem simples e compressíveis
- Fórmula:
- risco esperado ≤ risco empírico + termo relacionado à compressibilidade
Dimensionalidade efetiva
- Dimensionalidade efetiva = número de autovalores grandes da Hessiana da função de perda do modelo
- Quanto menor a dimensionalidade efetiva, mais simples é o modelo e melhor tende a ser sua generalização
Outros frameworks de generalização
- Complexidade de Rademacher, dimensão VC etc. não explicam bem os fenômenos do deep learning
- PAC-Bayes e limites para hipóteses contáveis podem resolver esse problema
Principais fenômenos
Benign overfitting
- Fenômeno em que o modelo aprende perfeitamente até o ruído e ainda assim apresenta boa generalização
- Benign overfitting também pode ser reproduzido com modelos lineares simples
- Pode ser explicado por PAC-Bayes e por limites para hipóteses contáveis
Overparametrization
- O modelo mantém excelente generalização mesmo quando o número de parâmetros é maior que o número de dados
- Isso acontece porque modelos grandes podem ser comprimidos em estruturas mais simples após o treinamento, favorecendo a generalização
Double descent
- Fenômeno em que, à medida que a complexidade do modelo aumenta, a perda diminui, depois aumenta e volta a diminuir
- Também pode ser reproduzido em modelos lineares
- Pode ser explicado pela dimensionalidade efetiva e pela compressibilidade do modelo
Visão alternativa
- A visão tradicional de que a generalização no deep learning é misteriosa depende de frameworks de generalização limitados
- Com PAC-Bayes e limites para hipóteses contáveis, esses fenômenos de generalização podem ser explicados
- A percepção de que a generalização no deep learning é misteriosa pode ser um preconceito equivocado
Elementos distintivos do deep learning
Aprendizado de representações
- Redes neurais têm a capacidade de aprender similaridade nos dados
- Em dados de alta dimensionalidade, podem medir similaridade melhor do que a distância euclidiana
- Isso favorece interpolação e extrapolação em alta dimensionalidade
Aprendizado universal
- Modelos de deep learning apresentam bom desempenho de forma consistente em diversos domínios
- Têm desempenho excelente em transfer learning e in-context learning
Conectividade entre modos
- Modelos treinados a partir de inicializações diferentes podem ser conectados ao longo de curvas simples
- Isso é explorado em técnicas de treinamento como SWA (Stochastic Weight Averaging)
Conclusão e perspectivas
- Benign overfitting, overparametrization e double descent não são fenômenos exclusivos de redes neurais
- Eles podem ser explicados por PAC-Bayes e por limites para hipóteses contáveis
- O deep learning se diferencia por características como aprendizado de representações, aprendizado universal e conectividade entre modos
- O desempenho de generalização decorre não da complexidade do modelo, mas de sua compressibilidade e simplicidade
1 comentários
Opinião do Hacker News
Se você tem interesse em machine learning, a aula "Probability for computer scientists" de Stanford é um excelente recurso
Estabilidade algorítmica oferece uma explicação mais convincente do que descendentes de PAC-Bayes ou da teoria VC
Se você quer entender machine learning, recomendo "The StatQuest Illustrated Guide to Machine Learning", do Josh Starmer
DNN não tem nenhuma capacidade especial de generalização
Em vez de limitar o espaço de hipóteses para evitar overfitting, é importante aceitar um espaço de hipóteses flexível e preferir soluções simples que sejam compatíveis com os dados
Quando comecei em deep learning, aprender a prova do teorema da aproximação universal foi de grande ajuda
Um exemplo interessante em que redes "profundas" são necessárias é discutido em um artigo recente sobre RNNs
Existe a ideia de coletar dados de texto e criar um algoritmo de previsão armazenando a distância entre palavras
Fico curioso sobre onde está a fronteira do que é definido e regulado como 'IA'
Um neurônio artificial é basicamente uma regressão linear tornada não linear pela adição de uma função de ativação