Uma teoria científica do deep learning vai surgir

(arxiv.org)

24 pontos por GN⁺ 4 일 전 | 1 comentários | Compartilhar no WhatsApp

A mecânica do processo de aprendizado em deep learning trata o treinamento de redes neurais como uma dinâmica produzida pela interação entre parâmetros, dados, tarefa e regras de aprendizado, e começa a se consolidar na forma de uma teoria científica unificada
O desafio central está menos na opacidade e mais na complexidade: redes neurais, por terem estrutura não convexa e superparametrizada e por aprenderem representações internas estruturadas, não são explicadas de modo suficiente apenas pelas teorias clássicas existentes
Regularidades aparecem repetidamente em eixos como configurações interpretáveis, limites de largura e profundidade infinitas, leis empíricas simples, teoria de hiperparâmetros e fenômenos universais, acumulando a base da mecânica do aprendizado
Resultados como deep linear network, NTK, mean-field e a distinção lazy-rich permitem tratar quantitativamente dinâmica de aprendizado, generalização, feature learning e scaling law
Essa teoria é importante para dar uma base mais previsível e controlável ao projeto e à otimização de modelos, à escolha de hiperparâmetros e até a AI safety e mechanistic interpretability

Introdução

O deep learning é extremamente poderoso, mas ainda falta uma estrutura científica integrada que explique seu funcionamento interno
- Redes neurais exibem desempenho sobre-humano em várias tarefas, mas ainda não existe uma teoria unificada que explique por que funcionam assim e como esse desempenho surge
- Na prática, o treinamento real ainda depende fortemente de tentativa e erro, mais do que de first principles, e a teoria tem papel limitado no trabalho cotidiano com deep learning
Com a era dos grandes modelos de linguagem e dos diffusion models, o mistério se aprofundou, mas uma teoria científica do deep learning de fato começou a tomar forma, e seu formato é mais próximo da mecânica do processo de aprendizado
O foco da teoria de deep learning mudou ao longo do tempo
- No início, o centro era que tipos de função um modelo podia representar e como ele aprendia a partir dos dados
- Depois, o foco passou para quando ocorre generalização com amostras finitas, desenvolvendo classical learning theory, teoria da aprendizagem computacional, teoria PAC e teoria clássica de otimização
- Ao mesmo tempo, também se formou a tradição da statistical physics of machine learning, voltada ao comportamento médio de modelos simples
Redes multicamadas, backpropagation e a ampliação em larga escala de dados e recursos computacionais passaram a expor os limites das teorias existentes
- Redes neurais têm estrutura não convexa e superparametrizada, diferente dos modelos simples e convexos que a teoria clássica tratava bem
- Elas vão além de obter baixo erro de aprendizado: aprendem representações internas estruturadas e exibem regularidades em tarefas e escalas diversas
Com essa mudança, a teoria de deep learning saiu da etapa de perguntar matematicamente o que é possível para uma etapa científica de descrever e prever o comportamento de sistemas empíricos complexos
- Por isso, é necessária uma abordagem científica que incorpore observações empíricas, busque princípios unificadores e identifique padrões recorrentes
- O caminho à frente tende a se parecer menos com o desenvolvimento de uma área puramente matemática e mais com o amadurecimento de um campo científico

O que é learning mechanics

O aprendizado em redes neurais pode ser visto de forma análoga à mechanics de objetos que se movem no espaço e no tempo
- Assim como um objeto se desloca continuamente no espaço físico sob a ação de forças, um modelo se move no parameter space por meio de atualizações discretas
- Assim como, na física, as forças surgem das interações entre os componentes de um sistema, no deep learning o aprendizado é moldado pela interação entre parâmetros, conjunto de dados, tarefa e regras de aprendizado
Também há uma correspondência entre os campos da física e o gradiente no deep learning
- Assim como um sistema físico se estabelece em um mínimo local do potencial determinado por interações internas e restrições externas, uma rede neural também converge para um mínimo local da loss landscape formada pela arquitetura e pelos dados de treinamento
Essa analogia não é apenas retórica, mas também se conecta à linha de pesquisa em andamento
- Assim como várias áreas da mechanics usam configurações interpretáveis, limites simplificados, estatísticas resumidas, análise de parâmetros do sistema e fenômenos universais, a mecânica do aprendizado usa as mesmas ferramentas
- Em especial, assim como continuum mechanics e statistical mechanics, que lidam com muitos elementos em interação, no deep learning também é útil explicar estatísticas em nível ampliado, em vez de cada elemento individualmente
Esse programa de pesquisa pode ser reunido sob o nome de learning mechanics

7 condições necessárias para learning mechanics

Fundamentalidade
- É preciso desenvolver o treinamento de redes neurais logicamente a partir de first principles
- Hipóteses sobre pesos, dinâmica e desempenho podem ser usadas como ferramenta em etapas intermediárias, mas ao final isso também deve ser explicado por first principles
Caráter matemático
- É preciso produzir afirmações quantitativas sem ambiguidade sobre propriedades importantes de redes neurais
- Descrições apenas qualitativas não bastam para constituir uma mechanics
Capacidade preditiva
- É preciso fazer afirmações verificáveis por medições empíricas simples e repetíveis
- Como o controle experimental sobre o sistema é muito alto, avanços importantes devem poder ser validados claramente por experimentos
Abrangência
- É preciso conectar processo de treinamento, representações internas e pesos finais em um único quadro
- Em vez de tentar incluir todos os detalhes, deve-se escolher uma resolução adequada que ofereça insight, mesmo sacrificando parte dos detalhes
Intuitividade
- É melhor priorizar insights simples e illuminating do que complexidade técnica
- A teoria deve dar a satisfação de dissipar o mistério do deep learning
Utilidade
- Assim como a física serve de base para outras engenharias, deve servir como fundamento científico do deep learning aplicado
- Isso inclui objetivos concretos como reduzir o ajuste de hiperparâmetros, ferramentas preditivas para dataset design e uma base rigorosa para AI safety
Humildade
- É preciso deixar claro o que a teoria explica bem e o que ela não consegue explicar
- Mesmo uma mechanics aplicável ao deep learning real pode falhar em casos especiais pequenos e desenhados manualmente, e isso deve ser visto como o preço para obter um quadro simples nas regiões de interesse

Por que learning mechanics é importante

Razões científicas
- O sucesso de engenharia das grandes redes neurais sugere que elas exploram princípios profundos de aprendizado e representação que ainda não foram compreendidos
- São citados como precedentes a steam engine e a thermodynamics, e o avião e a aerodynamic theory, em que a tecnologia veio antes da teoria
- Os princípios de aprendizado das redes neurais artificiais também podem lançar luz sobre a compreensão da biological intelligence, com implicações para neuroscience e cognitive science
Razões práticas
- Uma teoria madura de deep learning pode orientar projeto de modelos, otimização, scaling e deployment com princípios mais confiáveis
- Em algumas áreas, a teoria já começou a ter papel relevante
  - empirical scaling laws
  - prescrições matemáticas para scaling de hiperparâmetros
  - optimizers e métodos de data attribution projetados com motivação teórica
- Uma teoria mais profunda e completa pode fornecer mais diretrizes desse tipo, tornando-as mais precisas e preditivas
Razões ligadas à segurança
- Para descrever, caracterizar e controlar sistemas de IA cada vez mais poderosos, é preciso conseguir explicitar variáveis relevantes, mecanismos e princípios de organização
- É difícil regular uma tecnologia que não pode ser descrita com clareza, e uma fundamental theory pode fornecer a clareza necessária para reliability, oversight e control
- Em especial, levanta-se a possibilidade de contribuir para AI safety de uma forma que também apoie mechanistic interpretability

Evidências de que uma mecânica do aprendizado está surgindo

Os componentes centrais do deep learning são explícitos e mensuráveis
- A arquitetura é dada por uma rede neural f(x; θ) definida como uma composição de transformações lineares e não lineares simples
- Os dados são dados como um conjunto de amostras D = {(xi, yi)} proveniente de uma distribuição geradora de dados desconhecida
- A tarefa é definida por uma função objetivo L(θ) que mede o desempenho no dataset
- A regra de aprendizado é descrita por atualizações baseadas em gradient, como θ(t+1) = θ(t) −η∇L(θ(t)), além da inicialização e de hiperparâmetros de otimização
Quase não há nada oculto no processo de aprendizado
- Ao contrário de muitos sistemas complexos, o deep learning expõe diretamente as equations of motion que governam a dinâmica
- É possível registrar todos os weights, activations, gradients e losses, e a partir disso produzir quaisquer estatísticas desejadas
- É fácil projetar, reproduzir e validar experimentos, o que favorece a descoberta de regularidades empíricas e o teste rigoroso de previsões teóricas
O problema central não está na opacidade, mas na complexidade
- A interação entre architecture, data, task e learning rule cria dinâmicas de aprendizado não lineares, combinatórias e de alta dimensão
- Há sensibilidade à escolha de hiperparâmetros, e a própria distribuição dos dados é difícil de caracterizar de forma simples
Ainda assim, há regularidades escondidas sob essa complexidade, e são apresentadas cinco observações que as sustentam
- Configurações solucionáveis analiticamente
- Limites que trazem insights
- Leis empíricas simples
- Teoria de hiperparâmetros
  - Fenômenos universais

Configurações solucionáveis analiticamente

Em sistemas complexos, a compreensão científica cresce rapidamente quando se torna possível fazer cálculos quantitativos em configurações simplificadas, mas representativas
- Assim como o harmonic oscillator ou o hydrogen atom na física, modelos mínimos também fornecem no deep learning uma intuição para entender sistemas mais realistas
- O deep learning se encaixa especialmente bem nessa abordagem, e já foram encontradas muitas configurações em que a dinâmica de aprendizado se simplifica e as quantidades centrais se tornam calculáveis
Linearização em relação aos dados
- Uma deep linear network remove a não linearidade, tornando o modelo linear em relação à entrada x, mas ainda altamente não linear em relação aos parâmetros θ
- Mesmo parecendo simples, esses modelos preservam comportamentos característicos do deep learning
  - saddle-point-dominated loss landscape
  - dinâmica com phase transition bem definida e escalas de tempo separadas
  - edge-of-stability oscillation no gradient descent
  - inductive bias fortemente dependente da inicialização
- A análise normalmente é feita sob gradient flow, o limite de tempo contínuo do gradient descent, e, com hipóteses simplificadoras sobre a distribuição dos dados e a inicialização, obtêm-se soluções exatas ou reduções a sistemas dinâmicos de baixa dimensão
- Um ponto central que aparece repetidamente é o greedy low-rank bias
  - O aprendizado adquire alguns componentes da tarefa antes de outros
  - Nos resultados de [Saxe et al. 2014], os singular vectors da correlação entrada-saída são aprendidos sequencialmente, e os modos com singular value maior são aprendidos primeiro
  - Esse viés está ligado à separação entre signal e noise, o que pode ajudar na generalização
  - Em redes não lineares, ele também se assemelha ao fenômeno em que funções simples são aprendidas antes de funções complexas
- Pequena inicialização, maior profundidade, mini-batch noise mais forte e ℓ2 regularization explícita tendem a reforçar ainda mais esse greedy bias
Linearização em relação aos parâmetros
- Uma linearized network é obtida truncando os termos não lineares na expansão de Taylor em torno dos parâmetros iniciais; ela permanece não linear em relação aos dados x, mas se torna linear em relação aos parâmetros θ
- Em certas configurações, o modelo original é bem aproximado por essa linearização ao longo de todo o treinamento, e nesse caso a dinâmica de aprendizado passa a ser essencialmente a mesma da regressão linear
- A diferença é que, no lugar de um Gram kernel, a dinâmica é governada pelo neural tangent kernel, NTK
- Em least squares com gradient descent de step size pequeno, o preditor final é dado por kernel ridge regression com NTK, o que aumenta a interpretabilidade
- Essa configuração revela como a arquitetura determina o inductive bias por meio da estrutura do NTK
- Ao considerar também a estrutura dos dados de entrada, é possível prever o erro de generalização esperado para uma função-alvo arbitrária, e os resultados da Figure 1 mostram que essas previsões batem bem com os experimentos
- Ela também consegue capturar double descent e scaling laws
- Ainda assim, sua realismo e suas limitações são claros
  - não captura o forte feature learning de uma generic neural network
  - pode produzir previsões excessivamente pessimistas para a complexidade amostral
  - ao transformar o aprendizado em um problema linear, acaba contornando os fenômenos de otimização não convexa característicos do deep learning
Além da linearização
- Uma frente importante da teoria é tornar interpretáveis toy models realmente não lineares tanto em relação aos dados quanto aos parâmetros
- Aqui, a influência da distribuição dos dados se torna muito mais complexa, o que dificulta estabelecer um único arcabouço unificado, mas há avanços em várias direções
- Em famílias de modelos single-index e multi-index com entradas Gaussianas e targets estruturados, redes neurais fully nonlinear funcionam melhor com menos amostras do que kernel methods
  - Isso ocorre porque elas aprendem relevant features explorando a estrutura da função-alvo
- Métodos de statistical physics também permitem calcular, nesses modelos, o comportamento assintótico exato da inferência Bayes-optimal e da dinâmica de aprendizado
- Em redes neurais de duas camadas com quadratic activation, já foram caracterizados os assintóticos exatos, a dinâmica de treinamento e até as scaling laws
- Além disso, vários outros fenômenos não lineares foram isolados e analisados
  - a convergência de homogeneous networks treinadas com logistic loss para a max-margin solution
  - a redução da dinâmica de treinamento a estatísticas-resumo de baixa dimensão em teacher-student models
  - a memorization em associative memory models
  - a estrutura algorítmica aprendida em tarefas de modular arithmetic
  - modelos interpretáveis não lineares de attention
  - casos em que o feature learning não linear produz scaling laws melhores
- No momento, os toy models não lineares capturam cada um apenas uma parte do aprendizado totalmente não linear, e ainda não surgiu um framework unificado

Os limites que geram insight

Os sistemas modernos de deep learning são compostos por dezenas de bilhões de parâmetros e volumes imensos de dados, de modo que uma teoria microscópica que acompanhe parâmetros individuais parece quase impossível.
Mas sistemas complexos frequentemente se simplificam no limite em que o tamanho vai efetivamente ao infinito, e essa estrutura simples oferece insights úteis mesmo para sistemas finitos reais.
- É a mesma lógica de a lei dos gases ideais ser derivada no limite de número infinito de partículas, mas ainda assim se ajustar bem a gases finitos reais.
- No deep learning, os limites também são uma ferramenta matemática central para lidar com a complexidade, e seu sucesso repetido é apresentado como forte evidência de uma teoria emergente.
Limite de largura infinita e a dicotomia lazy-rich
- Quando o número de neurônios na hidden layer vai ao infinito, surge um mean-field behavior em que, em vez de olhar para neurônios individuais, basta observar a evolução da distribuição do conjunto total de neurônios.
- No entanto, para evitar a divergência das activations em camadas profundas, é preciso reduzir a escala de inicialização à medida que a largura cresce, e diferentes taxas dessa redução produzem dois tipos distintos de dinâmica limite.
- Regime lazy, kernel ou linearizado
  - Se, na inicialização, a magnitude de cada parâmetro for reduzida em [width]−1/2, a entrada dos hidden neurons não desaparece nem explode.
  - Ao treinar essas redes, os weights e as hidden representations quase não mudam, mas essas pequenas mudanças se acumulam e a função de saída muda bastante.
  - Como resultado, a dinâmica de aprendizado é linear em relação aos parâmetros, e a evolução da função de saída é expressa inteiramente pelo NTK.
  - A interpretabilidade é alta, mas como a hidden representation quase não muda, não aparece feature learning.
  - Esse limite mais tarde foi sistematizado sob o nome lazy.
- Regime rich, active ou de feature learning
  - Se os pesos da última camada forem reduzidos de forma mais forte, em [width]−1, surge um limite diferente em que o modelo precisa mudar mais durante o treinamento, tornando possível o feature learning.
  - Nesse caso, a saída inicial vai a 0 na largura infinita, mas durante o treinamento pode crescer de forma significativa, em ordem unitária, a cada passo de gradiente.
  - Essa ideia, que começou em shallow mean-field networks, foi expandida para redes de profundidade arbitrária, e o escalonamento relacionado se conecta à Maximal Update Parameterization, µP.
  - Hoje é amplamente aceito que até redes de largura infinita podem aprender features.
- Comportamentos observados no regime rich
  - As hidden features mudam ao longo do tempo e se adaptam à estrutura dos dados de entrada.
  - A geometria das representações internas muda durante o treinamento.
  - Subconjuntos de neurônios se especializam em diferentes features latentes.
  - Quando a melhor predição está em um subespaço de baixa dimensão de dados de alta dimensão, a distribuição dos pesos da primeira camada evolui na direção de amplificar esse subespaço de interesse.
  - Se a escala de inicialização for reduzida ainda mais, o greedy low-rank bias mencionado antes frequentemente reaparece.
- A transição lazy-rich também aparece em largura finita
  - Reduzir a escala de saída estimula o feature learning, deslocando o modelo para o regime rich.
  - Aumentar a escala de saída torna a dinâmica de treinamento mais linearizada, fazendo surgir comportamento lazy.
  - A mesma rede finita pode exibir aprendizado lazy ou rich dependendo da escala de saída, e a Figure 2 visualiza essa diferença.
Limite de profundidade infinita e outros limites de hiperparâmetros
- Em deep residual networks, se a contribuição de cada camada for reduzida de modo apropriado, é possível alcançar um infinite depth limit estável.
- Se cada camada for suprimida por [depth]−1, surge um limite em que o residual stream varia suavemente com a profundidade, lembrando uma Neural ODE.
- Se cada camada for suprimida por [depth]−1/2, surge um limite em que o residual stream se difunde como se fosse guiado por uma equação diferencial estocástica.
- Esses dois limites convergem para soluções qualitativamente diferentes em arquiteturas realistas como transformers, e ainda não está claro qual deles é mais importante.
Outros limites de escala
- Em arquiteturas recorrentes, é possível analisar o limite infinito da estrutura recorrente em vez do número de camadas feedforward.
- Transformers modernos incluem blocos mais expressivos, como multi-head self-attention e MLPs mixture-of-experts.
  - A atenção tem várias direções de escala: head count, head size e context length.
  - Mixture-of-experts tem várias direções de escala: expert count, expert size e sparsity.
- Esclarecer a interação entre esses diferentes limites infinitos é importante para conectar a teoria à prática moderna e para entender separadamente os hiperparâmetros ligados à inicialização e à otimização.

Resumo revelado por tabelas e figuras

A Table 1 resume como as ferramentas centrais de pesquisa em deep learning se parecem de perto com as ferramentas da física.
- solvable settings correspondem a deep linear networks, kernel regression e multi-index models, enquanto na física correspondem a harmonic oscillator, hydrogen atom e Ising model.
- simplifying limits se conectam a aprendizado lazy vs. rich, aos limites infinitos de largura e profundidade e à small initialization, enquanto na física aparecem ao lado de thermodynamic limit, classical limit e hydrodynamic limit.
- simple empirical laws aparecem como neural scaling laws, edge of stability e neural feature ansatz, em paralelo com leis da física como as de Kepler, Snell, Boyle, Hooke, Newton, Faraday, Ohm, Poiseuille, Planck e Hubble.
- O estudo de system parameters aparece ligado à visão de step size como sharpness regularization, além de µP e width scaling, e é organizado de modo semelhante a scaling analysis, nondimensionalization e aos regimes caótico vs. ordenado na física.
- universal phenomena aparecem como inductive bias e representations comuns entre modelos, correspondendo a critical phenomena e renormalization group flow na física.
A Figure 1 destaca que a linearização fornece uma solução exata e combina bem com os experimentos.
- Em deep linear networks, singular modes são aprendidos sequencialmente sob task-aligned initialization e whitened input.
- Se uma nonlinear network for linearizada por expansão de Taylor no ponto de inicialização, ela se reduz a kernel ridge regression via NTK, e a previsão de desempenho de teste bate de perto com experimentos em várias tarefas de classificação binária no CIFAR-5m.
A Figure 2 mostra que apenas grande escala de saída e pequena escala de saída já bastam para induzir dinâmicas de treinamento lazy e rich.
- Na mesma shallow student network, quando α = 0.1, os pesos do student se movem bastante e se agrupam em torno das direções de feature do teacher, exibindo dinâmica rich.
- Quando α = 30, a loss cai, mas os pesos do student quase não se movem, exibindo dinâmica lazy.

1 comentários

GN⁺ 4 일 전

Comentários do Hacker News

Do ponto de vista de quem trabalha nessa área, este texto resumiu muito bem os temas de pesquisa mais discutidos no momento
Em especial, os open problems do final praticamente cobrem as principais direções de pesquisa, então essa foi a parte mais útil
Ver tanto ceticismo nos comentários mostra, infelizmente, como esse tipo de pesquisa quase não chega ao público
Ainda não há muitos mecanismos para derivar matematicamente, de forma direta, o melhor desenho de rede, mas isso geralmente acontece porque os experimentos avançam mais rápido que a teoria e a explicação vem depois
Mesmo assim, a pergunta sobre por que redes neurais funcionam melhor do que outros modelos já está bem perto de ter respostas bastante sólidas
O problema é que essa nem era a pergunta que as pessoas realmente queriam responder, então agora parece que chegamos ao ponto de decidir o que devemos perguntar em seguida
- Acho que estamos vivendo um período curioso em que a base informacional da deep learning está se consolidando rapidamente
  A pergunta sobre por que funciona está em grande parte resolvida, e o ponto central é minimizar de forma eficiente a perda irreversível de informação em relação ao noise floor
  A matemática aponta para caminhos mais eficientes, mas a indústria há anos desperdiça recursos insistindo apenas em modelos cada vez maiores
  Até um modelo 70B bem feito pode rodar em algo perto de 16GB sem perda de capacidade e ainda continuar treinando, mas o dinheiro continuou indo só para o bigger
  Agora a indústria mudou o foco para Agency e Long-horizon Persistence, e essa transição de uma calculadora preditiva para um sistema duradouro está mais próxima de um problema de termodinâmica de não equilíbrio
  Há matemática e leis que se aplicam diretamente à IA nesse ponto, e o princípio pelo qual um sinal persiste dentro do modelo e o princípio pelo qual um agente persiste acabam levando praticamente à mesma matemática
  Minha especialidade é justamente essa persistência, e às vezes é sinceramente frustrante ver a área de IA reaprendendo com dificuldade princípios básicos que outros campos já dominavam
  Por isso escrevo e compartilho documentos explicando como essa matemática funciona e como aplicá-la a cada domínio; depois de ler isso, em vez de ir no chute, dá para saber exatamente o que melhorar para aumentar a persistência
  Perguntas como por quantas horas um modelo consegue trabalhar parecem até bonitinhas; a questão realmente fundamental é outra
- Se isso for verdade, é realmente uma ótima notícia
  De uma perspectiva clássica, os efeitos da superparametrização e de outras estruturas de redes neurais sinceramente não são muito intuitivos
  Reconheço que o double descent funciona empiricamente, mas ainda parece que isso não deveria acontecer
  Para quem gosta do Elements, do Hastie e outros, só o bias-variance tradeoff já faz parecer difícil chegar a esse tipo de resultado
  Isso me incomoda há anos, então qualquer avanço nessa direção seria extremamente útil, nem que seja no plano filosófico
  Ainda li só a introdução, mas o texto está muito bem escrito e esse programa de pesquisa merece bastante apoio
  Parece parecido com o caso de bagging e boosting, que no começo também tiveram sucesso empírico antes de terem teoria
- Sempre me surpreende o número de pessoas que, ao falar de pesquisa para entender redes neurais, já começam dizendo que são uma black box e que entendê-las é impossível
  Provavelmente isso tem muito a ver com o modo como redes neurais passaram a ser descritas como o oposto de algo classicamente interpretável, como linear regression
  Como a engenharia anda rápido demais, também existe uma pressão forte para não esperar por pesquisas que não tragam resultado imediato
  Até mesmo pesquisadores de interpretabilidade parecem desistir rápido demais quando os resultados visíveis não aparecem logo
- A pergunta por que redes neurais funcionam melhor do que outros modelos é interessante
  Se alguém tiver material de referência acessível até para não especialistas, eu adoraria conhecer
- Não sei se dá para afirmar com certeza que redes neurais são melhores do que outros modelos
  É verdade que elas cobrem um conjunto muito maior de problemas em que ML tradicional tem dificuldade, como imagens, mas onde a comparação é equivalente eu sei que gradient boosting às vezes acaba indo melhor
O ponto que eu não entendo é este
A ideia de redes neurais existe há décadas e quase não recebia atenção, mas depois de Attention Is All You Need, em 2017, a deep learning explodiu
Eu sei que GPU acelera deep learning, mas fico pensando se o conceito de transformer em si não poderia ter sido tentado antes, mesmo com hardware muito mais lento
- O verdadeiro ponto de inflexão foi o AlexNet, em 2012
  Como em https://en.wikipedia.org/wiki/AlexNet, o AlexNet mostrou um salto de desempenho de outra ordem na competição de classificação do ImageNet, e depois disso os grandes laboratórios de pesquisa em imagem migraram todos para deep CNN
  Em poucos anos, outras abordagens praticamente desapareceram das competições SOTA em visão, e depois as redes neurais profundas dominaram outras áreas de ML também
  A explicação convencional no fim é a combinação de dois fatores
  O primeiro é uma capacidade de computação incomparavelmente maior do que no passado, e o segundo são datasets muito maiores e de alta qualidade, como o ImageNet, cuidadosamente curados e rotulados à mão
  Attention foi especialmente útil para aprender relações complexas em sequências com estrutura de ordem relativamente livre, como texto, mas hoje muita gente vê arquitetura menos como a essência da aprendizagem e mais como uma opção de tradeoff quando faltam dados e compute
  No fim, como no https://en.wikipedia.org/wiki/Bitter_lesson, mais compute e mais dados frequentemente vencem um modelo mais inteligente que não escala bem
  Humanos têm algo como 10^11 neurônios, cães 10^9 e ratos 10^7, e o que chama a atenção é que todos esses números são enormes
  Mesmo uma inteligência limitada como a de um rato exige centenas de milhões de neurônios, e a inteligência parece só emergir depois de certo limiar de capacidade computacional
  Provavelmente isso acontece porque lidar com a complexidade intrínseca de ambientes de aprendizado complexos exige muitos parâmetros
  Em problemas simples ou altamente estruturados, por outro lado, há muitas técnicas que funcionam bem com poucos parâmetros ou até têm prova de otimalidade
  O que normalmente chamamos de aprendizado e inteligência pressupõe ambientes complexos, e essa complexidade exige, em essência, um grande número de parâmetros
- A vitória grande e mais antiga da deep learning foi, na verdade, o AlexNet de 2012 em reconhecimento de imagem
  Aquilo dominou a competição e, em poucos anos, esse método virou praticamente o padrão para tarefas de imagem
  Acho que foi o Jeremy Howard, mas lembro de um texto por volta de 2017 perguntando quando surgiria em NLP um transfer learning tão eficaz quanto o que convnets já tinham conseguido em imagem
  O artigo de attention não passou a dominar o mundo imediatamente naquele ano; na época ainda faltava hardware e ainda não havia consenso de que escala resolveria tudo
  Levou quase mais 5 anos até o GPT-3 explodir, e só então começou a onda atual
  E muita gente subestima demais a escala de compute necessária para treinar esses monstros: com um único processador de 1GHz, treinar um modelo desse porte levaria algo como 100 milhões de anos
  Mesmo um modelo no nível do GPT-3 precisa de algo como 25 mil GPUs por vários meses, e com a memória limitada das GPUs de 10 anos atrás, treinar transformers grandes era praticamente impossível
  As antigas k80 tinham algo em torno de 12GB, enquanto H100/H200 hoje chegam à casa das centenas de GB, então dá para dizer que transformers grandes simplesmente não podiam ser construídos de verdade antes do começo dos anos 2020
  Também lembro dos gamers reclamando no fim da década de 2010 que os preços das GPUs disparavam por causa de ML
- Como outras pessoas já disseram, a explosão de interesse começou quando deep convolutional networks mostraram que funcionavam para problemas de imagem
  O interessante é que, antes disso, redes neurais eram tratadas como algo pouco importante
  Quando fiz aula sobre isso por volta de 2000, esse era mais ou menos o clima
  Para reacender o interesse, aparentemente foi preciso reunir dados de treino enormes, como o ImageNet, e processadores rápidos
  Depois disso, vieram avanços sucessivos em arquiteturas específicas e o processo cresceu como uma bola de neve
  Para a comunidade mais ampla, o AlexNet parece o grande marco, mas dentro da academia a mudança de clima já vinha de 2 a 3 anos antes
  Eu já começava a ver, por volta de 2008–09, apresentações sobre redes neurais em workshops deixando de ser tratadas com desdém
- Algo parecido aconteceu com matrizes
  Matrizes existem há 400 anos, mas a álgebra linear, especialmente a álgebra linear numérica, só explodiu depois que os computadores surgiram
  Antes, o padrão era resolver sistemas lineares pela teoria dos minors, mas com os computadores houve grande avanço em teorias como eliminação de Gauss e espaços de Krylov
- Mesmo que o conceito de transformer pudesse ter sido usado antes em hardware mais lento, em pequena escala ele não produz os mesmos resultados
  As pessoas até imaginavam isso, mas não tinham hardware para implementar de verdade
  Simplificando, LLM é basicamente transformer mais uma quantidade gigantesca de dados, e para realmente treinar dados nessa escala era indispensável ter hardware forte o bastante
Acho interessante que estamos tentando entender uma ferramenta de aprendizado, o cérebro, usando outra ferramenta de aprendizado
SGD já funciona muito bem, e deixá-lo algumas vezes melhor talvez não resolva a pergunta fundamental sobre o que a black box realmente faz
Como o modo de aprender e aquilo que o modelo realmente faz são problemas diferentes, e nosso cérebro também é uma black box em vários sentidos, parece que falta uma ponte maior entre pesquisa de mecanismos de aprendizado, psicologia e ideias filosóficas sobre a natureza do pensamento e da linguagem
Isso é animador, mas acho o título meio exagerado
Algo como vetores de ataque para entender o que a deep learning realmente faz seria mais preciso, embora menos chamativo
Se isso puder levar a uma forma de medir quando sistemas de deep learning produzem alucinações, já teria um valor enorme
Até isso acontecer, sistemas de deep learning só podem ser usados de forma limitada em tarefas em que falar bobagem cause pouco dano
- Acho que o que mais atrapalha essa área são os mnemônicos carregados de esperança e a antropomorfização aplicados a LLMs
  Por exemplo, a própria palavra hallucination força um significado humano sobre a saída do LLM
  Do ponto de vista do funcionamento matemático real, alucinação é só mais uma saída, e não existe uma fronteira claramente definida entre ela e as outras saídas
- Medir o momento em que sistemas de deep learning passam a alucinar é realmente um problema que vale muito a pena resolver
  Inclusive essa é minha principal linha de pesquisa, então posso estar enviesado
  A abordagem mais comum é OOD detection, mas eu venho achando há tempos que o próprio enquadramento do problema é instável
  Por isso, junto com colegas, tenho tentado uma abordagem mais fundamental medindo misspecification do modelo, mas o custo computacional é tão alto que o tema ainda está mais para nicho
  Em qualquer direção, ainda deve demorar até surgir uma ruptura de verdade
Isso me fez pensar que é conceitualmente parecido com vibecoding
Primeiro você faz alguma coisa funcionar; entender por que funciona e como funciona é outra tarefa completamente diferente
Peraí, então vocês construíram algo que ainda não entendem nem sabem explicar direito e agora querem chamar isso de science?
Há décadas vocês tomam emprestada terminologia da biologia, especialmente da neurobiologia, e no fim parece até que houve um lado meio copy paste, como macaco imitando macaco
Sinceramente, achei essas duas tentativas de teoria universal mais interessantes
https://arxiv.org/abs/2510.12269
https://www.mdpi.com/1099-4300/28/3/332
Também tenho curiosidade sobre a conexão com fuzzy logic
Redes neurais parecem raciocinar de maneira vaga, mas não sei bem como isso deveria ser chamado formalmente
Durante anos houve tentativas de formalizar fuzzy reasoning, mas hoje parece que ninguém mais se importa com isso
Minha impressão é que redes neurais e transformers são o OOP do ML
São extremamente populares e funcionam muito bem na prática, mas o fundamento ainda é opaco; parece uma reexpressão, em uma linguagem nova, de algo que já era representável antes, só que é difícil apontar exatamente onde surge o ganho
Ainda não li o paper inteiro, mas achei o texto realmente envolvente e bastante reflexivo
Tem muita coisa para digerir, mas é muito interessante ver tudo isso reunido num só lugar
Acho que o motivo pelo qual deep learning funciona tão bem em alto nível é, no fim, sua capacidade superior de continuar aprendendo com mais dados em comparação com outras abordagens
Mas, sem a quantidade imensa de dados disponível hoje, a arquitetura não teria importado tanto assim
Sem explicar os dois lados da equação modelo-dados ao mesmo tempo, parece difícil construir uma teoria científica sólida para perguntas como por que modelos de reasoning fazem inferência
O modelo é um produto conjunto da arquitetura com os dados de treinamento
No momento, isso ainda parece tão difícil quanto explicar como humanos ou animais aprendem coisas específicas a partir de volumes enormes de dados de entrada
Nossa compreensão empírica deve melhorar, mas no nível fundamental isso talvez nem volte a se reduzir à ciência da computação
Acho que o verdadeiro núcleo da complexidade está mais no lado dos gigadatasets do que na arquitetura
A teoria se torna decisivamente importante quando surge a necessidade de prever modos de falha
Um sistema de apoio à decisão que acerta quase sempre, mas falha silenciosamente em casos extremos, pode ser mais perigoso do que um sistema mais simples com limites claramente conhecidos
Entender os mecanismos de viés ajuda a distinguir quando o modelo está realmente confiante e quando está apenas fazendo pattern matching
Essa diferença é especialmente importante em ambientes de alto risco

Uma teoria científica do deep learning vai surgir

Introdução

O que é learning mechanics

7 condições necessárias para learning mechanics

Fundamentalidade

Caráter matemático

Capacidade preditiva

Abrangência

Intuitividade

Utilidade

Humildade

Por que learning mechanics é importante

Razões científicas

Razões práticas

Razões ligadas à segurança

Evidências de que uma mecânica do aprendizado está surgindo

Configurações solucionáveis analiticamente

Limites que trazem insights

Leis empíricas simples

Teoria de hiperparâmetros

Configurações solucionáveis analiticamente

Linearização em relação aos dados

Linearização em relação aos parâmetros

Além da linearização

Os limites que geram insight

Limite de largura infinita e a dicotomia lazy-rich

Regime lazy, kernel ou linearizado

Regime rich, active ou de feature learning

Comportamentos observados no regime rich

A transição lazy-rich também aparece em largura finita

Limite de profundidade infinita e outros limites de hiperparâmetros

Outros limites de escala

Resumo revelado por tabelas e figuras

Leituras relacionadas

1 comentários

Comentários do Hacker News