1 pontos por GN⁺ 2025-03-06 | 1 comentários | Compartilhar no WhatsApp
  • ACM A.M. Turing Award homenageia dois pesquisadores que lideraram o desenvolvimento de uma tecnologia fundamental de IA

  • Andrew Barto e Richard Sutton reconhecidos como pioneiros do aprendizado por reforço

    • A ACM selecionou Andrew G. Barto e Richard S. Sutton como os vencedores do ACM A.M. Turing Award de 2024. Eles desenvolveram as bases conceituais e algorítmicas do aprendizado por reforço.
    • Barto é professor emérito de Information and Computer Sciences na University of Massachusetts Amherst, e Sutton atua como professor de Computer Science na University of Alberta.
    • O Turing Award é chamado de Nobel da computação e concede um prêmio de US$ 1 milhão, com apoio financeiro do Google.
  • O que é aprendizado por reforço?

    • A área de inteligência artificial (AI) concentra-se principalmente na construção de agentes que percebem e agem. O aprendizado por reforço (RL) é o processo pelo qual esses agentes aprendem comportamentos melhores por meio de sinais de recompensa.
    • As bases do aprendizado por reforço começaram no início dos anos 1980, quando Barto e Sutton formalizaram o aprendizado por reforço como um framework geral de problemas com base em observações da psicologia.
    • Eles desenvolveram algoritmos de aprendizado por reforço utilizando fundamentos matemáticos baseados em processos de decisão de Markov (MDP).
  • Principais contribuições

    • Barto e Sutton desenvolveram abordagens algorítmicas fundamentais do aprendizado por reforço, incluindo especialmente aprendizado por diferença temporal, métodos de gradiente de política e representações de funções de aprendizado com redes neurais.
    • O livro-texto deles, "Reinforcement Learning: An Introduction", continua sendo a referência padrão da área e já foi citado mais de 75.000 vezes.
  • Aplicações práticas do aprendizado por reforço

    • Nos últimos 15 anos, o aprendizado por reforço avançou muito ao ser combinado com algoritmos de deep learning. Exemplos representativos incluem a vitória do AlphaGo no jogo de Go e o desenvolvimento do ChatGPT.
    • O aprendizado por reforço tem obtido sucesso em várias áreas, como aprendizado de habilidades motoras em robótica, controle de congestionamento de rede, design de chips e otimização de publicidade na internet.
  • Inspiração neurocientífica do aprendizado por reforço

    • Pesquisas recentes indicam que determinados algoritmos de aprendizado por reforço desenvolvidos em AI são os que melhor explicam o sistema de dopamina do cérebro humano.
  • Explicação sobre o ACM A.M. Turing Award

    • O Turing Award é concedido desde 1966 para homenagear cientistas da computação e engenheiros que contribuíram para o avanço da indústria de tecnologia da informação.
  • Vencedores do 2024 ACM A.M. Turing Award

    • Andrew Barto é professor emérito de Information and Computer Sciences na University of Massachusetts Amherst e recebeu diversos prêmios.
    • Richard Sutton é professor de Computer Science na University of Alberta, atua em várias instituições de pesquisa e recebeu diversos prêmios.

1 comentários

 
GN⁺ 2025-03-06
Comentários do Hacker News
  • Muito legal. Minha esposa e eu compramos a casa de Andy Barto e da esposa dele

    • Houve uma guerra de lances durante a compra
    • Quando soube que ele era matemático, fiz uma oferta com um número primo
    • Fico realmente feliz em ver o reconhecimento das contribuições dele
  • Que ótimo! É alguém muito merecedor. Eles disponibilizam gratuitamente em PDF as duas edições do livro-texto de RL

    • Trabalho com IA na prática desde 1982, e RL foi pessoalmente um tema difícil de dominar
    • O livro de Sutton/Barto, o curso de RL no Coursera do professor White etc. foram de grande ajuda: recomendo
    • Os programas de exemplo do livro deles são fornecidos em Common Lisp e Python
  • É um bom momento para reler The Bitter Lesson

  • Sutton é um sucessorista humano e não se importa se todos os humanos morrerem. Ele não é confiável e não é alguém a ser celebrado

  • Teria sido melhor dar o prêmio a físicos

  • Surpreende que Sutton more em Edmonton, no Canadá, em vez dos EUA

    • Isso mostra que ele valoriza mais a integridade e a diligência do que fama e dinheiro
  • Eles são excelentes, mas, infelizmente, o livro de IA de Sutton e Barto é realmente ruim

    • Grokking Machine Learning, do Trask, e alguns meses implementando artigos de ML seriam melhores
  • Usei o livro de RL deles na disciplina que lecionei

    • É lindamente escrito e oferecido gratuitamente
    • Eu frequentemente me concentrava tanto na bela escrita que acabava deixando passar o conteúdo em si
  • Parabéns sinceros a Andrew Barto e Richard Sutton pelo prêmio Turing

    • Quando eu era estudante, o livro-texto deles, Reinforcement Learning: An Introduction, foi o que me levou a entrar nessa área
    • O capítulo 6, sobre 'Temporal Difference Learning', mudou fundamentalmente minha forma de pensar sobre tomada de decisão sequencial
    • Continua sendo um clássico que ainda hoje recomendo fortemente
  • Já demorou bastante. Eles levaram a ideia até o fim, do começo ao fim, e a expandiram para um campo inteiro, em vez de deixá-la como uma subseção de um livro de programação dinâmica

    • Queria que mais jogos realmente usassem RL — foi aí que tudo começou — seria muito legal mesmo