- Artigo sobre a importância histórica do paper "Backpropagation Applied to Handwritten Zip Code Recognition", publicado por Yann LeCun e outros em 1989; esse trabalho é considerado um dos primeiros casos reais de aplicação em que uma rede neural foi treinada de ponta a ponta usando retropropagação.
- O autor tentou reproduzir o trabalho do paper usando ferramentas modernas como o PyTorch e observou que a rede original foi implementada em Lisp usando o simulador de retropropagação SN de Bottou e LeCun (1988), posteriormente renomeado para Lush.
- A rede original foi treinada por 3 dias em uma workstation SUN-4/260, mas a reprodução feita pelo autor usando a CPU de um MacBook Air (M1) levou cerca de 90 segundos.
- O autor também experimentou técnicas modernas de deep learning, como usar o otimizador Adam, introduzir aumento de dados e dropout, e substituir a função de ativação
tanh por ReLU, o que reduziu a taxa de erro em cerca de 60%.
- O autor sugere que melhorias adicionais podem ser obtidas ampliando o tamanho da rede ou do conjunto de dados, mas isso aumentaria o custo computacional e poderia causar latência na inferência.
- Ao relembrar os avanços do deep learning nos últimos 33 anos, o autor destaca que os princípios básicos permaneceram os mesmos, mas a escala dos conjuntos de dados e dos modelos cresceu muito, enquanto o tempo necessário para treinar modelos caiu drasticamente.
- O autor especula que, até 2055, as redes neurais serão ainda maiores e que a maioria das aplicações será viabilizada por ajuste fino leve em partes da rede, engenharia de prompt ou destilação de dados ou modelos em redes de inferência menores e mais especializadas.
1 comentários
Comentários do Hacker News