Deep learning não é tão misterioso nem tão diferente

(arxiv.org)

30 pontos por GN⁺ 2025-03-18 | 1 comentários | Compartilhar no WhatsApp

Há a percepção de que o fenômeno de generalização dos modelos de deep learning é diferente dos modelos anteriores e algo misterioso
Overfitting, double descent e overparametrization são frequentemente citados como características do deep learning
No entanto, esses fenômenos não se limitam às redes neurais e podem ser explicados por frameworks antigos de generalização, como PAC-Bayes e limites para hipóteses contáveis
O conceito de "soft inductive biases" é o princípio-chave para explicar esses fenômenos de generalização

Soft Inductive Biases

Os vieses indutivos tradicionais restringem o espaço de hipóteses para melhorar o desempenho de generalização
Soft inductive biases mantêm a flexibilidade do espaço de hipóteses enquanto atribuem preferência a determinadas soluções
Assim como o compartilhamento de parâmetros em CNNs preserva localidade e invariância a translação, adicionam uma regularização suave para certas propriedades
Mesmo em modelos overparameterized, o desempenho de generalização é bom porque soft inductive biases estão em ação

Frameworks de generalização

PAC-Bayes e limites para hipóteses contáveis

PAC-Bayes explica o risco de generalização em termos de risco empírico e compressibilidade do modelo
Mesmo modelos grandes podem ter boa generalização garantida se forem simples e compressíveis
Fórmula:
- risco esperado ≤ risco empírico + termo relacionado à compressibilidade

Dimensionalidade efetiva

Dimensionalidade efetiva = número de autovalores grandes da Hessiana da função de perda do modelo
Quanto menor a dimensionalidade efetiva, mais simples é o modelo e melhor tende a ser sua generalização

Outros frameworks de generalização

Complexidade de Rademacher, dimensão VC etc. não explicam bem os fenômenos do deep learning
PAC-Bayes e limites para hipóteses contáveis podem resolver esse problema

Principais fenômenos

Benign overfitting

Fenômeno em que o modelo aprende perfeitamente até o ruído e ainda assim apresenta boa generalização
Benign overfitting também pode ser reproduzido com modelos lineares simples
Pode ser explicado por PAC-Bayes e por limites para hipóteses contáveis

Overparametrization

O modelo mantém excelente generalização mesmo quando o número de parâmetros é maior que o número de dados
Isso acontece porque modelos grandes podem ser comprimidos em estruturas mais simples após o treinamento, favorecendo a generalização

Double descent

Fenômeno em que, à medida que a complexidade do modelo aumenta, a perda diminui, depois aumenta e volta a diminuir
Também pode ser reproduzido em modelos lineares
Pode ser explicado pela dimensionalidade efetiva e pela compressibilidade do modelo

Visão alternativa

A visão tradicional de que a generalização no deep learning é misteriosa depende de frameworks de generalização limitados
Com PAC-Bayes e limites para hipóteses contáveis, esses fenômenos de generalização podem ser explicados
A percepção de que a generalização no deep learning é misteriosa pode ser um preconceito equivocado

Elementos distintivos do deep learning

Aprendizado de representações

Redes neurais têm a capacidade de aprender similaridade nos dados
Em dados de alta dimensionalidade, podem medir similaridade melhor do que a distância euclidiana
Isso favorece interpolação e extrapolação em alta dimensionalidade

Aprendizado universal

Modelos de deep learning apresentam bom desempenho de forma consistente em diversos domínios
Têm desempenho excelente em transfer learning e in-context learning

Conectividade entre modos

Modelos treinados a partir de inicializações diferentes podem ser conectados ao longo de curvas simples
Isso é explorado em técnicas de treinamento como SWA (Stochastic Weight Averaging)

Conclusão e perspectivas

Benign overfitting, overparametrization e double descent não são fenômenos exclusivos de redes neurais
Eles podem ser explicados por PAC-Bayes e por limites para hipóteses contáveis
O deep learning se diferencia por características como aprendizado de representações, aprendizado universal e conectividade entre modos
O desempenho de generalização decorre não da complexidade do modelo, mas de sua compressibilidade e simplicidade

1 comentários

GN⁺ 2025-03-18

Opinião do Hacker News

Se você tem interesse em machine learning, a aula "Probability for computer scientists" de Stanford é um excelente recurso
- Essa aula aborda em profundidade a teoria das probabilidades e os fundamentos teóricos de machine learning
- As aulas do Andrew Ng também são famosas, mas exigem entendimento matemático de álgebra linear
- Para deep learning, a introdução visual do 3b1b é útil
Estabilidade algorítmica oferece uma explicação mais convincente do que descendentes de PAC-Bayes ou da teoria VC
- Materiais relacionados podem ser encontrados em artigos no arXiv
Se você quer entender machine learning, recomendo "The StatQuest Illustrated Guide to Machine Learning", do Josh Starmer
- Ele é um excelente professor que expressa ideias complexas de forma clara e concisa
- O formato lembra um livro infantil, então é fácil de ler e entender
- Também recomendo o livro recente dele sobre redes neurais
DNN não tem nenhuma capacidade especial de generalização
- Na verdade, sua generalização pode ser mais fraca do que a de técnicas matematicamente mais fundamentadas, como SVM
- Se você treinar uma DNN com o conjunto de dados "Wine Quality" do repositório de machine learning da UCI, terá resultados ruins e overfitting
- A "mágica" dos LLMs vem do paradigma de treinamento
- É possível usar modelos enormes sem overfitting ao utilizar conjuntos de dados gigantescos
- Há 10 anos, o princípio de "reusabilidade" ainda não estava claro
Em vez de limitar o espaço de hipóteses para evitar overfitting, é importante aceitar um espaço de hipóteses flexível e preferir soluções simples que sejam compatíveis com os dados
- Existe a questão de como o deep learning faz isso
- No passado, usava-se uma abordagem de verossimilhança com penalização
- Ficava a impressão de que, em deep learning, a forma de penalizar a complexidade era mais complicada e menos intuitiva
Quando comecei em deep learning, aprender a prova do teorema da aproximação universal foi de grande ajuda
- Entender por que redes neurais conseguem aproximar funções torna mais fácil compreender tudo o que é construído em cima disso
Um exemplo interessante em que redes "profundas" são necessárias é discutido em um artigo recente sobre RNNs
- Os modelos minGRU e minLSTM não modelam explicitamente dependências de estado, mas conseguem aprendê-las se forem profundos o suficiente
Existe a ideia de coletar dados de texto e criar um algoritmo de previsão armazenando a distância entre palavras
- Fico curioso sobre o quão próximo isso está do GPT 2
Fico curioso sobre onde está a fronteira do que é definido e regulado como 'IA'
Um neurônio artificial é basicamente uma regressão linear tornada não linear pela adição de uma função de ativação
- Quando isso é organizado em uma rede, surgem resultados interessantes

Deep learning não é tão misterioso nem tão diferente

Soft Inductive Biases

Frameworks de generalização

PAC-Bayes e limites para hipóteses contáveis

Dimensionalidade efetiva

Outros frameworks de generalização

Principais fenômenos

Benign overfitting

Overparametrization

Double descent

Visão alternativa

Elementos distintivos do deep learning

Aprendizado de representações

Aprendizado universal

Conectividade entre modos

Conclusão e perspectivas

Leituras relacionadas

1 comentários

Opinião do Hacker News