2 pontos por GN⁺ 2023-08-27 | 1 comentários | Compartilhar no WhatsApp
  • Artigo sobre a importância histórica do paper "Backpropagation Applied to Handwritten Zip Code Recognition", publicado por Yann LeCun e outros em 1989; esse trabalho é considerado um dos primeiros casos reais de aplicação em que uma rede neural foi treinada de ponta a ponta usando retropropagação.
  • O autor tentou reproduzir o trabalho do paper usando ferramentas modernas como o PyTorch e observou que a rede original foi implementada em Lisp usando o simulador de retropropagação SN de Bottou e LeCun (1988), posteriormente renomeado para Lush.
  • A rede original foi treinada por 3 dias em uma workstation SUN-4/260, mas a reprodução feita pelo autor usando a CPU de um MacBook Air (M1) levou cerca de 90 segundos.
  • O autor também experimentou técnicas modernas de deep learning, como usar o otimizador Adam, introduzir aumento de dados e dropout, e substituir a função de ativação tanh por ReLU, o que reduziu a taxa de erro em cerca de 60%.
  • O autor sugere que melhorias adicionais podem ser obtidas ampliando o tamanho da rede ou do conjunto de dados, mas isso aumentaria o custo computacional e poderia causar latência na inferência.
  • Ao relembrar os avanços do deep learning nos últimos 33 anos, o autor destaca que os princípios básicos permaneceram os mesmos, mas a escala dos conjuntos de dados e dos modelos cresceu muito, enquanto o tempo necessário para treinar modelos caiu drasticamente.
  • O autor especula que, até 2055, as redes neurais serão ainda maiores e que a maioria das aplicações será viabilizada por ajuste fino leve em partes da rede, engenharia de prompt ou destilação de dados ou modelos em redes de inferência menores e mais especializadas.

1 comentários

 
GN⁺ 2023-08-27
Comentários do Hacker News
  • Este artigo discute a evolução das redes neurais profundas ao longo dos últimos 33 anos e apresenta previsões para os próximos 33.
  • O treinamento original dessa rede foi realizado em uma workstation Sun 4/260 durante 3 dias, consumindo cerca de 14.400 watt-hora de energia. Hoje, o mesmo treinamento pode ser feito em um MacBook em apenas 90 segundos, usando somente 0,5 watt-hora, o que representa uma melhora de quase 30.000 vezes na eficiência energética.
  • Alguns leitores criticam as previsões do artigo para 2055 como "meta-lineares", argumentando que elas ainda refletem uma "simetria de linha do mundo" que toma a data atual como ponto de origem. Eles afirmam que esse é um horizonte de tempo grande o suficiente para haver muitos avanços e obstáculos inesperados.
  • Há um debate sobre se, nos próximos 33 anos, faz sentido continuar fazendo a mesma coisa com mais dados e mais poder computacional, ou se seria melhor explorar novas abordagens.
  • Alguns leitores questionam a escalabilidade da computação nos próximos 33 anos, enquanto outros argumentam que ela não precisa escalar como no passado.
  • O artigo está sendo elogiado por explorar os fundamentos do aprendizado de máquina de forma direta e simples, em contraste com muitos artigos acadêmicos que enchem páginas com resultados difíceis de reproduzir em novas arquiteturas complexas.
  • Os leitores apontam que a mudança mais fundamental está em qual modelo está sendo treinado, passando de imagens pequenas para a comunicação linguística e visual da espécie humana.
  • O artigo desperta nostalgia em alguns leitores que testemunharam a ascensão, a queda e o renascimento do interesse por redes neurais.
  • Alguns leitores expressam entusiasmo com o futuro da tecnologia, enquanto outros demonstram preocupação com a possibilidade de os seres humanos se tornarem irrelevantes em um mundo dominado por IA.
  • O artigo demonstra que os avanços em hardware desempenham um papel importante na evolução da IA, embora alguns leitores argumentem que os avanços futuros talvez não sejam tão dramáticos.