-
ACM A.M. Turing Award homenageia dois pesquisadores que lideraram o desenvolvimento de uma tecnologia fundamental de IA
-
Andrew Barto e Richard Sutton reconhecidos como pioneiros do aprendizado por reforço
- A ACM selecionou Andrew G. Barto e Richard S. Sutton como os vencedores do ACM A.M. Turing Award de 2024. Eles desenvolveram as bases conceituais e algorítmicas do aprendizado por reforço.
- Barto é professor emérito de Information and Computer Sciences na University of Massachusetts Amherst, e Sutton atua como professor de Computer Science na University of Alberta.
- O Turing Award é chamado de Nobel da computação e concede um prêmio de US$ 1 milhão, com apoio financeiro do Google.
-
O que é aprendizado por reforço?
- A área de inteligência artificial (AI) concentra-se principalmente na construção de agentes que percebem e agem. O aprendizado por reforço (RL) é o processo pelo qual esses agentes aprendem comportamentos melhores por meio de sinais de recompensa.
- As bases do aprendizado por reforço começaram no início dos anos 1980, quando Barto e Sutton formalizaram o aprendizado por reforço como um framework geral de problemas com base em observações da psicologia.
- Eles desenvolveram algoritmos de aprendizado por reforço utilizando fundamentos matemáticos baseados em processos de decisão de Markov (MDP).
-
Principais contribuições
- Barto e Sutton desenvolveram abordagens algorítmicas fundamentais do aprendizado por reforço, incluindo especialmente aprendizado por diferença temporal, métodos de gradiente de política e representações de funções de aprendizado com redes neurais.
- O livro-texto deles, "Reinforcement Learning: An Introduction", continua sendo a referência padrão da área e já foi citado mais de 75.000 vezes.
-
Aplicações práticas do aprendizado por reforço
- Nos últimos 15 anos, o aprendizado por reforço avançou muito ao ser combinado com algoritmos de deep learning. Exemplos representativos incluem a vitória do AlphaGo no jogo de Go e o desenvolvimento do ChatGPT.
- O aprendizado por reforço tem obtido sucesso em várias áreas, como aprendizado de habilidades motoras em robótica, controle de congestionamento de rede, design de chips e otimização de publicidade na internet.
-
Inspiração neurocientífica do aprendizado por reforço
- Pesquisas recentes indicam que determinados algoritmos de aprendizado por reforço desenvolvidos em AI são os que melhor explicam o sistema de dopamina do cérebro humano.
-
Explicação sobre o ACM A.M. Turing Award
- O Turing Award é concedido desde 1966 para homenagear cientistas da computação e engenheiros que contribuíram para o avanço da indústria de tecnologia da informação.
-
Vencedores do 2024 ACM A.M. Turing Award
- Andrew Barto é professor emérito de Information and Computer Sciences na University of Massachusetts Amherst e recebeu diversos prêmios.
- Richard Sutton é professor de Computer Science na University of Alberta, atua em várias instituições de pesquisa e recebeu diversos prêmios.
1 comentários
Comentários do Hacker News
Muito legal. Minha esposa e eu compramos a casa de Andy Barto e da esposa dele
Que ótimo! É alguém muito merecedor. Eles disponibilizam gratuitamente em PDF as duas edições do livro-texto de RL
É um bom momento para reler The Bitter Lesson
Sutton é um sucessorista humano e não se importa se todos os humanos morrerem. Ele não é confiável e não é alguém a ser celebrado
Teria sido melhor dar o prêmio a físicos
Surpreende que Sutton more em Edmonton, no Canadá, em vez dos EUA
Eles são excelentes, mas, infelizmente, o livro de IA de Sutton e Barto é realmente ruim
Usei o livro de RL deles na disciplina que lecionei
Parabéns sinceros a Andrew Barto e Richard Sutton pelo prêmio Turing
Já demorou bastante. Eles levaram a ideia até o fim, do começo ao fim, e a expandiram para um campo inteiro, em vez de deixá-la como uma subseção de um livro de programação dinâmica