- Aula de nível de pós-graduação da Universidade Stanford que aborda os conceitos centrais e as aplicações de Aprendizado por Reforço (Reinforcement Learning), estruturada em torno dos princípios pelos quais sistemas autônomos aprendem a tomar decisões por conta própria
- Aprendizado de como definir e resolver, com RL, problemas em diversas áreas como robótica, jogos, modelagem do consumidor e saúde
- Por meio de aulas, tarefas escritas e tarefas de programação, os alunos desenvolvem na prática desde algoritmos básicos de RL até Aprendizado por Reforço Profundo (Deep RL)
- Os alunos devem ter conhecimento prévio de Python, álgebra linear, probabilidade e estatística, e fundamentos de machine learning, e as tarefas são enviadas pelo Gradescope
- O curso é organizado com um currículo sistemático que inclui o dilema entre exploração e aproveitamento, busca de políticas, RL offline e o caso do AlphaGo, sendo importante para fortalecer competências centrais em pesquisa de IA e desenvolvimento de aplicações
Visão geral e funcionamento do curso
- Enfatiza a necessidade de sistemas que aprendam a tomar decisões de forma autônoma para alcançar os objetivos da inteligência artificial
- O aprendizado por reforço é um paradigma poderoso para implementar esses sistemas e pode ser aplicado em várias aplicações reais
- As aulas acontecem ao vivo às terças e quintas-feiras, e as gravações são disponibilizadas no Canvas
- Perguntas e respostas são feitas pelo Ed Forum, e as tarefas e quizzes são gerenciados no Gradescope
- A professora responsável é Emma Brunskill, com apoio de vários assistentes
Pré-requisitos
- Habilidade em programação Python é obrigatória; todas as tarefas são feitas em Python
- É necessário conhecimento de cálculo, álgebra linear e probabilidade/estatística em nível universitário
- Exige compreensão de fundamentos de machine learning (por exemplo, CS221, CS229)
- Inclui definição de função de custo, otimização por gradient descent e conceitos de otimização convexa
Objetivos de aprendizagem
- Definir as características centrais que diferenciam o aprendizado por reforço do machine learning não interativo
- Formalizar um problema de aplicação dado como RL e projetar espaço de estados, espaço de ações e modelo de recompensa
- Implementar algoritmos principais como busca de políticas, Q-learning e planejamento em MDP
- Entender critérios de avaliação como regret, complexidade de amostra, complexidade computacional e convergência
- Comparar diferentes abordagens para o problema de exploração vs. exploitation
Resumo do cronograma
- Semana 1: introdução ao aprendizado por reforço, planejamento em Tabular MDP
- Semana 2: avaliação de políticas, Q-learning e aproximação de função
- Semanas 3–4: busca de políticas (1–3), RL offline e imitation learning
- Semana 5: prova de meio de período, tópico de DPO
- Semanas 6–7: aprofundamento em RL offline, exploração (1–3)
- Semana 8: exploração (4), palestra de convidado, entrega do milestone do projeto
- Semana 9: Monte Carlo Tree Search / AlphaGo, quiz
- Semanas 10–11: palestra de convidado, sessão de pôster do projeto final e entrega do relatório
Livro-texto e materiais de referência
- Não há livro-texto oficial; a principal referência é Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
- Materiais adicionais incluem Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning e as aulas de RL de David Silver
Peso das avaliações
- Tarefa 1: 10%, Tarefa 2: 18%, Tarefa 3: 18%
- Prova de meio de período: 25%, quiz: 5%, projeto: 24%
- Proposta 1%, milestone 2%, pôster 5%, artigo 16%
- Bônus de participação em aula: até 0,5%
Política de atraso e envio
- São concedidos ao todo 5 late days
- É possível usar no máximo 2 dias por tarefa; acima disso, há desconto na nota
- Envio em até 24 horas após o prazo recebe no máximo 50% da pontuação; após isso, a nota é 0
- Não há tolerância para atraso na apresentação do pôster nem no artigo final
Provas
- Haverá 1 prova de meio de período e 1 quiz, ambos presenciais no campus
- Em caso de motivo oficial, pode haver prova remota ou alternativa
- Materiais permitidos: 1 folha de anotações manuscritas (prova), 1 folha frente e verso (quiz)
- Proibido: calculadora, notebook, celular, tablet etc.
Tarefas e envio
- Todas as tarefas são publicadas na página Assignments
- Algumas tarefas podem usar recursos de computação em nuvem
- As instruções de envio devem ser consultadas na página dedicada
Integridade acadêmica e uso de ferramentas de IA
- Em tarefas escritas, é permitido discutir ideias, mas as respostas devem ser redigidas de forma independente
- Em tarefas de programação, só é permitido compartilhar resultados de entrada/saída; compartilhar código é proibido
- A verificação de plágio é feita com software de detecção de similaridade
- O uso de IA generativa (GPT-4, Gemini, Copilot etc.) é permitido em nível comparável à colaboração humana
- É proibido gerar código diretamente ou copiar respostas
- O uso deve ser declarado, e a responsabilidade final é do próprio aluno
- LLMs não podem ser listados como coautores de projetos
Apoio acadêmico e contestação de notas
- O apoio acadêmico relacionado a deficiência pode ser solicitado ao Office of Accessible Education (OAE)
- Pedidos de revisão de nota podem ser enviados pelo Gradescope em até 3 dias após a divulgação da nota
- Na reavaliação, toda a tarefa pode ser corrigida novamente
Créditos e modalidade da disciplina
- Mesmo no regime Credit/No Credit, aplicam-se os mesmos critérios de avaliação
- Com C- ou mais (aprox. 70%), é concedido CR
Outros
- Alunos da SCPD podem fazer consultas administrativas por um e-mail específico
- O design do site foi feito por Andrej Karpathy
1 comentários
Comentários do Hacker News
Fiquei animado achando que os vídeos das aulas tinham sido liberados, mas quando fui ver, estavam privados
Na época da pandemia, várias instituições abriram materiais para o mundo inteiro, mas hoje a tendência é fechar não só aulas novas como também vídeos antigos
Até no MIT OCW, quando se chega aos cursos avançados de pós-graduação, os materiais somem
Claro que entendo que a universidade queira priorizar ex-alunos, mas para liberar materiais básicos como vídeos de aula, na prática o custo é quase zero
Esse tipo de material parece gerar um valor enorme para o mundo
Alguns professores não querem compartilhar slides ou gravações por questões de direitos autorais
Mas essa postura parece criar exclusividade por meio de barreiras legais, e não por mérito real
No fim, quem se beneficia são apenas os alunos que pagaram mensalidades caras, os instrutores que não querem mudar e os administradores universitários
Existe a frase: “RL é o pior método de aprendizado, exceto por todos os outros”
Muitos cientistas acham que, daqui a 10 anos, RL não será mais a abordagem dominante no treinamento de modelos de ponta
Eu concordo, e recomendo fazer este curso pensando também em outros paradigmas
Assim como a geração de imagens avançou com diffusion model e o GPT deu um salto com RLHF, RL também não deve ser o estágio final
Nossa tarefa é encontrar algo melhor do que isso
Se houver tempo de execução suficiente, ele garante matematicamente a solução ótima
Por isso carros autônomos usam RL, não GPT
Ao otimizar de milhões a bilhões de visitas, adicionar contextual multi-armed bandit é muito eficaz para induzir compras
Mas, no trabalho real, percebi que a generalização out-of-distribution não é possível com simples aprendizado baseado em recompensa
Eu estava curioso se os vídeos estavam públicos, e as aulas do semestre de primavera estão nesta playlist no YouTube
Vindo de alguém que só estudou ML tradicional, fico confuso sobre como aplicar RL a problemas gerais
Por exemplo, em classificação binária com BCE loss ou em previsão de preço de imóveis, não consigo imaginar como forçar o uso de RL
Não consigo visualizar como conectar isso à função de perda
Em problemas de regressão claros, como previsão de preço de imóveis, os métodos tradicionais já funcionam bem o suficiente, e RL é desnecessário
Já em problemas de decisão sequencial como Go, o sinal de recompensa é escasso e não é claro como melhorar a estratégia, então RL faz sentido
RL é útil em situações complexas sem rótulos, mas mesmo problemas como xadrez no fim das contas dependem de convertê-los em problemas de aprendizado supervisionado
Ela é adequada para problemas de decisão sequencial em que os espaços de estado e ação estão definidos, mas não se encaixa em classificação binária ou regressão
RL é forte em problemas nos quais você precisa tomar uma decisão agora sem conhecer os resultados futuros
Muita gente diz que RL é instável e difícil de convergir
Os pesquisadores de Stanford também reconhecem isso
Fico me perguntando se existe alguma solução
Em vez de aprender apenas um único valor máximo, ele aprende a distribuição completa de recompensas, aumentando a estabilidade
Se você ouviu o podcast do Ilya, o título deste curso fica interessante
Estou procurando livros recomendados sobre RL
Já estudei deep learning o suficiente
Estou considerando Reinforcement Learning do Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy e o novo livro de Sebastian Raschka
O PDF gratuito pode ser baixado em algorithmsbook.com