3 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp
  • Aula de nível de pós-graduação da Universidade Stanford que aborda os conceitos centrais e as aplicações de Aprendizado por Reforço (Reinforcement Learning), estruturada em torno dos princípios pelos quais sistemas autônomos aprendem a tomar decisões por conta própria
  • Aprendizado de como definir e resolver, com RL, problemas em diversas áreas como robótica, jogos, modelagem do consumidor e saúde
  • Por meio de aulas, tarefas escritas e tarefas de programação, os alunos desenvolvem na prática desde algoritmos básicos de RL até Aprendizado por Reforço Profundo (Deep RL)
  • Os alunos devem ter conhecimento prévio de Python, álgebra linear, probabilidade e estatística, e fundamentos de machine learning, e as tarefas são enviadas pelo Gradescope
  • O curso é organizado com um currículo sistemático que inclui o dilema entre exploração e aproveitamento, busca de políticas, RL offline e o caso do AlphaGo, sendo importante para fortalecer competências centrais em pesquisa de IA e desenvolvimento de aplicações

Visão geral e funcionamento do curso

  • Enfatiza a necessidade de sistemas que aprendam a tomar decisões de forma autônoma para alcançar os objetivos da inteligência artificial
    • O aprendizado por reforço é um paradigma poderoso para implementar esses sistemas e pode ser aplicado em várias aplicações reais
  • As aulas acontecem ao vivo às terças e quintas-feiras, e as gravações são disponibilizadas no Canvas
  • Perguntas e respostas são feitas pelo Ed Forum, e as tarefas e quizzes são gerenciados no Gradescope
  • A professora responsável é Emma Brunskill, com apoio de vários assistentes

Pré-requisitos

  • Habilidade em programação Python é obrigatória; todas as tarefas são feitas em Python
  • É necessário conhecimento de cálculo, álgebra linear e probabilidade/estatística em nível universitário
  • Exige compreensão de fundamentos de machine learning (por exemplo, CS221, CS229)
    • Inclui definição de função de custo, otimização por gradient descent e conceitos de otimização convexa

Objetivos de aprendizagem

  • Definir as características centrais que diferenciam o aprendizado por reforço do machine learning não interativo
  • Formalizar um problema de aplicação dado como RL e projetar espaço de estados, espaço de ações e modelo de recompensa
  • Implementar algoritmos principais como busca de políticas, Q-learning e planejamento em MDP
  • Entender critérios de avaliação como regret, complexidade de amostra, complexidade computacional e convergência
  • Comparar diferentes abordagens para o problema de exploração vs. exploitation

Resumo do cronograma

  • Semana 1: introdução ao aprendizado por reforço, planejamento em Tabular MDP
  • Semana 2: avaliação de políticas, Q-learning e aproximação de função
  • Semanas 3–4: busca de políticas (1–3), RL offline e imitation learning
  • Semana 5: prova de meio de período, tópico de DPO
  • Semanas 6–7: aprofundamento em RL offline, exploração (1–3)
  • Semana 8: exploração (4), palestra de convidado, entrega do milestone do projeto
  • Semana 9: Monte Carlo Tree Search / AlphaGo, quiz
  • Semanas 10–11: palestra de convidado, sessão de pôster do projeto final e entrega do relatório

Livro-texto e materiais de referência

  • Não há livro-texto oficial; a principal referência é Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
  • Materiais adicionais incluem Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning e as aulas de RL de David Silver

Peso das avaliações

  • Tarefa 1: 10%, Tarefa 2: 18%, Tarefa 3: 18%
  • Prova de meio de período: 25%, quiz: 5%, projeto: 24%
    • Proposta 1%, milestone 2%, pôster 5%, artigo 16%
  • Bônus de participação em aula: até 0,5%

Política de atraso e envio

  • São concedidos ao todo 5 late days
  • É possível usar no máximo 2 dias por tarefa; acima disso, há desconto na nota
    • Envio em até 24 horas após o prazo recebe no máximo 50% da pontuação; após isso, a nota é 0
  • Não há tolerância para atraso na apresentação do pôster nem no artigo final

Provas

  • Haverá 1 prova de meio de período e 1 quiz, ambos presenciais no campus
  • Em caso de motivo oficial, pode haver prova remota ou alternativa
  • Materiais permitidos: 1 folha de anotações manuscritas (prova), 1 folha frente e verso (quiz)
  • Proibido: calculadora, notebook, celular, tablet etc.

Tarefas e envio

  • Todas as tarefas são publicadas na página Assignments
  • Algumas tarefas podem usar recursos de computação em nuvem
  • As instruções de envio devem ser consultadas na página dedicada

Integridade acadêmica e uso de ferramentas de IA

  • Em tarefas escritas, é permitido discutir ideias, mas as respostas devem ser redigidas de forma independente
  • Em tarefas de programação, só é permitido compartilhar resultados de entrada/saída; compartilhar código é proibido
  • A verificação de plágio é feita com software de detecção de similaridade
  • O uso de IA generativa (GPT-4, Gemini, Copilot etc.) é permitido em nível comparável à colaboração humana
    • É proibido gerar código diretamente ou copiar respostas
    • O uso deve ser declarado, e a responsabilidade final é do próprio aluno
  • LLMs não podem ser listados como coautores de projetos

Apoio acadêmico e contestação de notas

  • O apoio acadêmico relacionado a deficiência pode ser solicitado ao Office of Accessible Education (OAE)
  • Pedidos de revisão de nota podem ser enviados pelo Gradescope em até 3 dias após a divulgação da nota
  • Na reavaliação, toda a tarefa pode ser corrigida novamente

Créditos e modalidade da disciplina

  • Mesmo no regime Credit/No Credit, aplicam-se os mesmos critérios de avaliação
  • Com C- ou mais (aprox. 70%), é concedido CR

Outros

  • Alunos da SCPD podem fazer consultas administrativas por um e-mail específico
  • O design do site foi feito por Andrej Karpathy

1 comentários

 
GN⁺ 2025-11-28
Comentários do Hacker News
  • Fiquei animado achando que os vídeos das aulas tinham sido liberados, mas quando fui ver, estavam privados
    Na época da pandemia, várias instituições abriram materiais para o mundo inteiro, mas hoje a tendência é fechar não só aulas novas como também vídeos antigos
    Até no MIT OCW, quando se chega aos cursos avançados de pós-graduação, os materiais somem
    Claro que entendo que a universidade queira priorizar ex-alunos, mas para liberar materiais básicos como vídeos de aula, na prática o custo é quase zero
    Esse tipo de material parece gerar um valor enorme para o mundo

    • Os vídeos das aulas de 2024 estão em uma playlist no YouTube
    • Também existe o argumento de que, se você divulgar material novo, fica mais fácil para outras instituições plagiarem
      Alguns professores não querem compartilhar slides ou gravações por questões de direitos autorais
      Mas essa postura parece criar exclusividade por meio de barreiras legais, e não por mérito real
      No fim, quem se beneficia são apenas os alunos que pagaram mensalidades caras, os instrutores que não querem mudar e os administradores universitários
  • Existe a frase: “RL é o pior método de aprendizado, exceto por todos os outros”
    Muitos cientistas acham que, daqui a 10 anos, RL não será mais a abordagem dominante no treinamento de modelos de ponta
    Eu concordo, e recomendo fazer este curso pensando também em outros paradigmas
    Assim como a geração de imagens avançou com diffusion model e o GPT deu um salto com RLHF, RL também não deve ser o estágio final
    Nossa tarefa é encontrar algo melhor do que isso

    • Costuma-se presumir que as pessoas só se importam com geração de imagem ou texto, mas RL é excelente em problemas de controle
      Se houver tempo de execução suficiente, ele garante matematicamente a solução ótima
      Por isso carros autônomos usam RL, não GPT
    • Na prática, RL está mais para um método de geração de dataset do que propriamente para um método de aprendizado
    • Na indústria de publicidade, RL continua sendo usado intensamente
      Ao otimizar de milhões a bilhões de visitas, adicionar contextual multi-armed bandit é muito eficaz para induzir compras
    • Fico curioso sobre qual paradigma seria adequado para problemas de otimização combinatória (combinatorial optimization) ou ambientes baseados em simulação
    • Eu pensava em RLHF como uma estratégia de estudante para aumentar nota em prova
      Mas, no trabalho real, percebi que a generalização out-of-distribution não é possível com simples aprendizado baseado em recompensa
  • Eu estava curioso se os vídeos estavam públicos, e as aulas do semestre de primavera estão nesta playlist no YouTube

  • Vindo de alguém que só estudou ML tradicional, fico confuso sobre como aplicar RL a problemas gerais
    Por exemplo, em classificação binária com BCE loss ou em previsão de preço de imóveis, não consigo imaginar como forçar o uso de RL
    Não consigo visualizar como conectar isso à função de perda

    • Ao decidir se deve usar RL, há três pontos a considerar: ① quanta informação de perda cada exemplo fornece, ② se é possível ajustar o modelo com esse sinal de perda e ③ a complexidade do espaço de características
      Em problemas de regressão claros, como previsão de preço de imóveis, os métodos tradicionais já funcionam bem o suficiente, e RL é desnecessário
      Já em problemas de decisão sequencial como Go, o sinal de recompensa é escasso e não é claro como melhorar a estratégia, então RL faz sentido
    • No meu caso, eu não usaria RL
      RL é útil em situações complexas sem rótulos, mas mesmo problemas como xadrez no fim das contas dependem de convertê-los em problemas de aprendizado supervisionado
    • RL é uma técnica para encontrar uma política ótima em um processo de decisão de Markov (MDP)
      Ela é adequada para problemas de decisão sequencial em que os espaços de estado e ação estão definidos, mas não se encaixa em classificação binária ou regressão
      RL é forte em problemas nos quais você precisa tomar uma decisão agora sem conhecer os resultados futuros
  • Muita gente diz que RL é instável e difícil de convergir
    Os pesquisadores de Stanford também reconhecem isso
    Fico me perguntando se existe alguma solução

    • FlowRL é uma alternativa possível
      Em vez de aprender apenas um único valor máximo, ele aprende a distribuição completa de recompensas, aumentando a estabilidade
  • Se você ouviu o podcast do Ilya, o título deste curso fica interessante

    • Surgiu até a piada: “Então no fim das contas o inverno da IA está chegando?”
    • Também houve quem perguntasse de qual podcast estavam falando
  • Estou procurando livros recomendados sobre RL
    Já estudei deep learning o suficiente
    Estou considerando Reinforcement Learning do Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy e o novo livro de Sebastian Raschka

    • Algorithms for Decision Making, de Kochenderfer e outros, também aborda perspectivas relacionadas a RL
      O PDF gratuito pode ser baixado em algorithmsbook.com