Richard Sutton e Andrew Barto recebem o Prêmio Turing de 2024

(awards.acm.org)

1 pontos por GN⁺ 2025-03-06 | 1 comentários | Compartilhar no WhatsApp

A ACM selecionou Andrew G. Barto e Richard S. Sutton como vencedores do 2024 ACM A.M. Turing Award por estabelecerem as bases conceituais e algorítmicas do aprendizado por reforço
Desde os anos 1980, os dois formalizaram o aprendizado baseado em recompensas como um framework geral de problemas e desenvolveram abordagens que funcionam mesmo quando o ambiente e as recompensas são desconhecidos
As contribuições centrais levaram ao aprendizado por diferença temporal, aos métodos de gradiente de política, à representação de funções baseada em redes neurais e ao design de agentes que combinam aprendizado e planejamento
O livro Reinforcement Learning: An Introduction, de 1998, foi citado mais de 75.000 vezes e influenciou AlphaGo, o RLHF do ChatGPT, manipulação robótica, controle de congestionamento de rede e design de chips
O Prêmio Turing concede US$ 1 milhão, com apoio do Google, e a ACM considera que o aprendizado por reforço contribuiu tanto para o avanço da IA quanto para a compreensão do funcionamento do cérebro

Vencedores e motivo da escolha

A ACM selecionou Andrew G. Barto e Richard S. Sutton como vencedores do 2024 ACM A.M. Turing Award
O motivo da escolha foi a contribuição ao desenvolvimento das bases conceituais e algorítmicas do aprendizado por reforço
Desde os anos 1980, os dois introduziram as ideias centrais do aprendizado por reforço em artigos acadêmicos e construíram sua base matemática e seus principais algoritmos
Barto é professor emérito de Information and Computer Sciences na University of Massachusetts, Amherst
Sutton é professor de ciência da computação na University of Alberta, pesquisador da Keen Technologies e fellow do Amii (Alberta Machine Intelligence Institute)
O ACM A.M. Turing Award é conhecido como o “Nobel da computação” e concede US$ 1 milhão em prêmio, com apoio financeiro da Google, Inc.

O problema que o aprendizado por reforço resolve

Em geral, a inteligência artificial é a área voltada à criação de agentes que percebem o ambiente e agem sobre ele
Agentes mais inteligentes precisam escolher melhores caminhos de ação, e decidir que certas ações são melhores que outras está no centro da IA
Recompensa (reward) é um termo vindo da psicologia e da neurociência que se refere a um sinal fornecido em relação à qualidade do comportamento do agente
O aprendizado por reforço é o processo de aprender, com base nesse sinal de recompensa, como agir com mais sucesso
Em seu artigo de 1950, “Computing Machinery and Intelligence”, Alan Turing tratou da pergunta “máquinas podem pensar?” e propôs uma abordagem de aprendizado de máquina baseada em recompensa e punição
Arthur Samuel desenvolveu no fim dos anos 1950 um programa de damas que aprendia jogando contra si mesmo, mas nas décadas seguintes quase não houve grandes avanços nessa linha de IA

Contribuições técnicas de Barto e Sutton

No início dos anos 1980, Barto e Sutton, então seu aluno de doutorado, começaram a formalizar o aprendizado por reforço como um framework geral de problemas, inspirados por observações da psicologia
Os dois utilizaram a base matemática dos processos de decisão de Markov (MDP)
- Nos MDPs, um agente toma decisões em um ambiente probabilístico
- Após cada transição, recebe um sinal de recompensa e busca maximizar a recompensa acumulada no longo prazo
A teoria padrão de MDP pressupõe que todas as informações são conhecidas pelo agente, mas o framework de aprendizado por reforço também lida com situações em que o ambiente e as recompensas são desconhecidos
Como exige pouca informação e o framework de MDP é geral, o aprendizado por reforço pode ser aplicado a muitos tipos de problema
Barto e Sutton desenvolveram, por meio de pesquisas em conjunto e colaborações posteriores, várias abordagens algorítmicas fundamentais de aprendizado por reforço
- A contribuição mais importante foi o aprendizado por diferença temporal (temporal difference learning), que trouxe grande avanço para resolver o problema de previsão de recompensas
- Os métodos de gradiente de política (policy-gradient methods) também estão entre as abordagens principais
- Eles desenvolveram abordagens que usam redes neurais como ferramenta para representar funções aprendidas
- Também propuseram o design de agentes que combinam aprendizado e planejamento, adquirindo conhecimento do ambiente para servir de base ao planejamento

Influência do livro-texto e a transição para o aprendizado por reforço profundo

O livro Reinforcement Learning: An Introduction, de 1998, continua sendo a referência padrão da área e foi citado mais de 75.000 vezes
O livro ajudou milhares de pesquisadores a entender e contribuir com o aprendizado por reforço, então uma área emergente, e ainda hoje influencia a atividade de pesquisa em ciência da computação
Embora os algoritmos de Barto e Sutton tenham sido desenvolvidos há décadas, nos últimos 15 anos grandes avanços em aplicações reais surgiram com a combinação entre aprendizado por reforço e algoritmos de deep learning
Essa combinação levou às técnicas de aprendizado por reforço profundo (deep reinforcement learning)
Os algoritmos de deep learning são apresentados como tendo sido pioneiramente desenvolvidos pelos vencedores do Prêmio Turing de 2018: Bengio, Hinton e LeCun

Casos de aplicação e expansão da pesquisa

Um exemplo emblemático de aprendizado por reforço foi a vitória do AlphaGo sobre os melhores jogadores humanos de Go em 2016 e 2017
O ChatGPT também está entre os principais resultados
- O ChatGPT é um grande modelo de linguagem treinado em duas etapas
- Na segunda etapa, usa aprendizado por reforço com feedback humano (RLHF) para captar expectativas humanas
Na robótica, há casos de manipulação robótica na mão e de resolução física do Rubik’s Cube
- Eles mostram que o aprendizado por reforço pode ser realizado em simulação e ainda assim ter sucesso no mundo real, mesmo sendo bastante diferente
Outras áreas de aplicação incluem controle de congestionamento de rede, design de chips, publicidade na internet, otimização, otimização global de cadeias de suprimento, melhoria do comportamento e da capacidade de raciocínio de chatbots e aprimoramento de algoritmos de multiplicação de matrizes
Técnicas inspiradas na neurociência também voltaram a influenciar a própria neurociência
- Pesquisas recentes, incluindo trabalhos de Barto, consideram que certos algoritmos de aprendizado por reforço desenvolvidos na IA explicam melhor várias descobertas relacionadas ao sistema de dopamina no cérebro humano

Avaliação da ACM e do Google

O presidente da ACM, Yannis Ioannidis, avaliou que o trabalho de Barto e Sutton mostra o potencial de aplicar uma abordagem multidisciplinar a desafios antigos da computação
Ciência cognitiva, psicologia e neurociência inspiraram o avanço do aprendizado por reforço, e o aprendizado por reforço, por sua vez, forneceu uma base importante para o progresso da IA e maiores insights sobre o funcionamento do cérebro
Ioannidis afirmou que o aprendizado por reforço não é apenas um trampolim do passado, mas uma área que continua crescendo e oferecendo potencial para novos avanços na computação e em várias outras disciplinas
O vice-presidente sênior do Google, Jeff Dean, citou uma fala de Alan Turing em uma palestra de 1947: “o que queremos é uma máquina que possa aprender com a experiência”
Dean avaliou que o aprendizado por reforço pioneiramente desenvolvido por Barto e Sutton responde diretamente ao desafio de Turing, foi um eixo central do progresso da IA nas últimas décadas e continua sendo um dos pilares do boom atual da IA

Biografia dos vencedores

Andrew Barto é professor emérito do departamento de Information and Computer Sciences da University of Massachusetts, Amherst
- Iniciou sua carreira em 1977 como pesquisador de pós-doutorado na UMass Amherst
- Depois atuou como Associate Professor, Professor e Department Chair, entre outros cargos
- Obteve bacharelado em matemática na University of Michigan e mestrado e doutorado em Computer and Communication Sciences na mesma instituição
- Recebeu o UMass Neurosciences Lifetime Achievement Award, o IJCAI Award for Research Excellence e o IEEE Neural Network Society Pioneer Award
- É fellow do IEEE e da AAAS
Richard Sutton é professor de ciência da computação na University of Alberta, pesquisador da Keen Technologies, empresa de inteligência artificial geral sediada em Dallas, e Chief Scientific Advisor do Amii
- De 2017 a 2023, foi Distinguished Research Scientist da DeepMind
- De 1998 a 2002, trabalhou como Principal Technical Staff Member na divisão de IA do AT&T Shannon Laboratory
- Sua colaboração com Barto começou em 1978 na University of Massachusetts at Amherst, onde Barto foi seu orientador de doutorado e pós-doutorado
- Obteve bacharelado em psicologia pela Stanford University e mestrado e doutorado em Computer and Information Science pela University of Massachusetts at Amherst
- Recebeu o IJCAI Research Excellence Award, o Canadian Artificial Intelligence Association Lifetime Achievement Award e o University of Massachusetts at Amherst Outstanding Achievement in Research Award
- É fellow da Royal Society of London, da Association for the Advancement of Artificial Intelligence e da Royal Society of Canada

1 comentários

GN⁺ 2025-03-06

Opiniões no Hacker News

Fico muito feliz em ver isso. Acontece que minha esposa e eu compramos a casa do casal Andy Barto
Durante o processo de compra houve disputa de lances e, como disseram para fazer “a melhor proposta”, sabendo que ele era matemático, fiz uma proposta com um valor primo. É ótimo ver o trabalho dele sendo reconhecido
- Teria sido bom brincar dizendo: “Vamos ser justos um com o outro, que tal 2 dólares?”
- Por “valor primo”, foi $12345678910987654321?
- História incrível. Fiquei curioso para saber qual era esse valor primo
Legal, e totalmente merecido. As duas edições do livro-texto de aprendizado por reforço estão disponíveis gratuitamente em PDF
Trabalho como profissional pago de IA desde 1982, mas aprendizado por reforço foi um tema difícil de aprender por conta própria, e o livro de Sutton/Barto e o curso de aprendizado por reforço dos professores White no Coursera ajudaram muito. Recomendo
Os programas de exemplo do livro estão disponíveis em Common Lisp e Python: http://incompleteideas.net/book/the-book-2nd.html
Agora é uma boa hora para reler The Bitter Lesson: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- A URL oficial é esta: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- É uma lição realmente amarga. Antigamente era divertido codificar conhecimento humano em computadores, e isso permitia entender o que estava acontecendo
  Agora tudo está virando uma enorme caixa-preta difícil de raciocinar. Além disso, a Lei de Moore virou uma profecia autorrealizável. Como a IA está elevando muito a demanda por capacidade de computação, fabricantes de chips passam a criar hardware dedicado, e isso gira como um volante de inércia
- Depende um pouco de qual é o objetivo da pesquisa em IA. Se o objetivo é criar máquinas que sejam boas em tarefas que se pensava que só a mente humana poderia ou precisaria fazer, então essa lição amarga tem bastante valor
  Mas, se o propósito é ensinar uma máquina a fazer X e ao mesmo tempo entender como as pessoas fazem X, construções estatísticas cada vez mais complexas oferecem informações limitadas. Não estou tomando partido de nenhum dos lados; quero dizer que talvez seja necessária uma abordagem mais sutil
- Houve uma tendência parecida em visão computacional. Métodos iniciais tratavam visão buscando bordas, cilindros generalizados e características SIFT, mas hoje essas coisas foram deixadas de lado, e redes neurais modernas de deep learning se saem muito melhor apenas com convoluções e certas invariâncias
  Eu estava na área quando o casamento de padrões começou a morrer em visão. Não desapareceu completamente, e o que aprendemos naquela época ainda é útil em outros lugares
- Dá vertigem pensar na lição amarga que profissionais de processamento de linguagem natural clássico devem ter aprendido. Aquele texto continua certo até hoje
O livro deles, Reinforcement Learning: An Introduction, é um dos textos mais acessíveis na área de IA/aprendizado de máquina, então recomendo fortemente
- Tentei entrar em aprendizado por reforço, mas sempre senti que as fórmulas e um monte de coisas com asterisco estavam muito acima do meu nível
- Fico curioso para saber qual é sua formação. Infelizmente, eu não achei aquele livro tão acessível assim
- O livro é um prazer de ler. Recomendo muito
- O livro de que você está falando é Reinforcement Learning: An Introduction? Ou eles escreveram outro?
Para manter o equilíbrio, deveriam ter dado a físicos
Vale lembrar que Sutton é um sucessionista humano e alguém que não se importa se toda a humanidade morrer. Não é alguém em quem confiar ou a ser celebrado: https://www.youtube.com/watch?v=NgHFMolXs3U
- O prêmio da ACM é concedido por suas realizações acadêmicas profissionais. Precisamos parar com essa obsessão de vasculhar a vida privada de alguém para encontrar a parte mais estranha que a pessoa disse e, com isso, pintar como malignas todas as realizações de uma vida inteira
  É tolo e perigoso pensar que, porque você não gosta de A e a pessoa disse ou fez A, qualquer um possa invalidar até realizações nobres em B que podem mudar o mundo. A internet coloca no mesmo peso o julgamento de pessoas que entendem bem o assunto e a simples antipatia. Fico irritado porque esse modo de agir está dividindo as pessoas em escala maior
- Você já conheceu Sutton pessoalmente? Ele é uma das pessoas mais calorosas, atenciosas e entusiasmadas que já conheci, quase um hippie. Ele não quer que todos os humanos morram
  A palestra que você linkou também não sustenta essa afirmação. Se eu perdi algo, deixe o timestamp. Na palestra, ele diz que isso levará a uma era de prosperidade, mesmo que a humanidade deixe de controlar sozinha o próprio destino. No slide de conclusão, aos 12:33, há literalmente um item dizendo “a melhor esperança para o futuro de longo prazo da humanidade”. Isso é o oposto de “não se importa se toda a humanidade morrer”
  O fato de eu me preparar para a sucessão não significa que eu queira ou espere que minha filha me mate. O que espero é ter uma aposentadoria longa e saudável e, então, adormecer em paz, sabendo que deixei para ela o melhor possível dentro de uma relação simbiótica com o universo
- “Não se importa se toda a humanidade morrer” parece uma formulação dura e enganosa da posição dele
  A meu ver, ele está mais próximo de acreditar que será inevitável que humanos acabem sendo substituídos por trans-humanos. Parece mais um utopismo tosco de ficção científica do que malícia, e não vejo isso como motivo para não celebrar suas contribuições acadêmicas
- É interessante divulgar esse ponto de vista, mas não entendo por que alguém não deveria ser confiável ou celebrado só por ter uma opinião da qual discordamos
  Em especial, a insinuação de que Sutton deseja ativamente que todos morram parece ter uma base muito fraca
- O último slide dele diz literalmente “a melhor esperança para o futuro de longo prazo da humanidade”. É exatamente o contrário da afirmação
Usei o livro de aprendizado por reforço deles em uma disciplina que lecionei. A escrita é bonita e ele está disponível gratuitamente: http://incompleteideas.net/book/the-book-2nd.html
As frases eram tão boas que às vezes eu perdia o conteúdo em si enquanto lia
Parabéns enormes a Andrew Barto e Richard Sutton pelo Turing Award. Quando eu era estudante, Reinforcement Learning: An Introduction foi a porta de entrada para essa área
Em especial, o capítulo 6, Temporal Difference Learning, mudou fundamentalmente minha forma de encarar tomada de decisão sequencial. É um clássico atemporal que continuo recomendando muito
É um prêmio aguardado há muito tempo. Eles levaram uma ideia do começo ao fim e a transformaram não em uma subseção de um livro de programação dinâmica, mas em um campo inteiro
Eu gostaria de ver aprendizado por reforço sendo muito mais usado em jogos, que também foi onde tudo isso começou. Seria realmente incrível
Prêmio merecido. Aprendizado por reforço ficará cada vez mais importante com o tempo graças à flexibilidade que tem junto com redes neurais
À medida que escalarmos, a lição amarga talvez deixe de parecer tão amarga

Richard Sutton e Andrew Barto recebem o Prêmio Turing de 2024

Vencedores e motivo da escolha

O problema que o aprendizado por reforço resolve

Contribuições técnicas de Barto e Sutton

Influência do livro-texto e a transição para o aprendizado por reforço profundo

Casos de aplicação e expansão da pesquisa

Avaliação da ACM e do Google

Biografia dos vencedores

Leituras relacionadas

1 comentários

Opiniões no Hacker News