CS234: Aprendizado por Reforço — Inverno de 2025

(web.stanford.edu)

3 pontos por GN⁺ 2025-11-28 | 1 comentários | Compartilhar no WhatsApp

Aula de nível de pós-graduação da Universidade Stanford que aborda os conceitos centrais e as aplicações de Aprendizado por Reforço (Reinforcement Learning), estruturada em torno dos princípios pelos quais sistemas autônomos aprendem a tomar decisões por conta própria
Aprendizado de como definir e resolver, com RL, problemas em diversas áreas como robótica, jogos, modelagem do consumidor e saúde
Por meio de aulas, tarefas escritas e tarefas de programação, os alunos desenvolvem na prática desde algoritmos básicos de RL até Aprendizado por Reforço Profundo (Deep RL)
Os alunos devem ter conhecimento prévio de Python, álgebra linear, probabilidade e estatística, e fundamentos de machine learning, e as tarefas são enviadas pelo Gradescope
O curso é organizado com um currículo sistemático que inclui o dilema entre exploração e aproveitamento, busca de políticas, RL offline e o caso do AlphaGo, sendo importante para fortalecer competências centrais em pesquisa de IA e desenvolvimento de aplicações

Visão geral e funcionamento do curso

Enfatiza a necessidade de sistemas que aprendam a tomar decisões de forma autônoma para alcançar os objetivos da inteligência artificial
- O aprendizado por reforço é um paradigma poderoso para implementar esses sistemas e pode ser aplicado em várias aplicações reais
As aulas acontecem ao vivo às terças e quintas-feiras, e as gravações são disponibilizadas no Canvas
Perguntas e respostas são feitas pelo Ed Forum, e as tarefas e quizzes são gerenciados no Gradescope
A professora responsável é Emma Brunskill, com apoio de vários assistentes

Pré-requisitos

Habilidade em programação Python é obrigatória; todas as tarefas são feitas em Python
É necessário conhecimento de cálculo, álgebra linear e probabilidade/estatística em nível universitário
Exige compreensão de fundamentos de machine learning (por exemplo, CS221, CS229)
- Inclui definição de função de custo, otimização por gradient descent e conceitos de otimização convexa

Objetivos de aprendizagem

Definir as características centrais que diferenciam o aprendizado por reforço do machine learning não interativo
Formalizar um problema de aplicação dado como RL e projetar espaço de estados, espaço de ações e modelo de recompensa
Implementar algoritmos principais como busca de políticas, Q-learning e planejamento em MDP
Entender critérios de avaliação como regret, complexidade de amostra, complexidade computacional e convergência
Comparar diferentes abordagens para o problema de exploração vs. exploitation

Resumo do cronograma

Semana 1: introdução ao aprendizado por reforço, planejamento em Tabular MDP
Semana 2: avaliação de políticas, Q-learning e aproximação de função
Semanas 3–4: busca de políticas (1–3), RL offline e imitation learning
Semana 5: prova de meio de período, tópico de DPO
Semanas 6–7: aprofundamento em RL offline, exploração (1–3)
Semana 8: exploração (4), palestra de convidado, entrega do milestone do projeto
Semana 9: Monte Carlo Tree Search / AlphaGo, quiz
Semanas 10–11: palestra de convidado, sessão de pôster do projeto final e entrega do relatório

Livro-texto e materiais de referência

Não há livro-texto oficial; a principal referência é Sutton & Barto, “Reinforcement Learning: An Introduction (2nd Ed.)”
Materiais adicionais incluem Wiering & van Otterlo, Reinforcement Learning: State-of-the-Art, Russell & Norvig, Artificial Intelligence: A Modern Approach, Goodfellow, Deep Learning e as aulas de RL de David Silver

Peso das avaliações

Tarefa 1: 10%, Tarefa 2: 18%, Tarefa 3: 18%
Prova de meio de período: 25%, quiz: 5%, projeto: 24%
- Proposta 1%, milestone 2%, pôster 5%, artigo 16%
Bônus de participação em aula: até 0,5%

Política de atraso e envio

São concedidos ao todo 5 late days
É possível usar no máximo 2 dias por tarefa; acima disso, há desconto na nota
- Envio em até 24 horas após o prazo recebe no máximo 50% da pontuação; após isso, a nota é 0
Não há tolerância para atraso na apresentação do pôster nem no artigo final

Provas

Haverá 1 prova de meio de período e 1 quiz, ambos presenciais no campus
Em caso de motivo oficial, pode haver prova remota ou alternativa
Materiais permitidos: 1 folha de anotações manuscritas (prova), 1 folha frente e verso (quiz)
Proibido: calculadora, notebook, celular, tablet etc.

Tarefas e envio

Todas as tarefas são publicadas na página Assignments
Algumas tarefas podem usar recursos de computação em nuvem
As instruções de envio devem ser consultadas na página dedicada

Integridade acadêmica e uso de ferramentas de IA

Em tarefas escritas, é permitido discutir ideias, mas as respostas devem ser redigidas de forma independente
Em tarefas de programação, só é permitido compartilhar resultados de entrada/saída; compartilhar código é proibido
A verificação de plágio é feita com software de detecção de similaridade
O uso de IA generativa (GPT-4, Gemini, Copilot etc.) é permitido em nível comparável à colaboração humana
- É proibido gerar código diretamente ou copiar respostas
- O uso deve ser declarado, e a responsabilidade final é do próprio aluno
LLMs não podem ser listados como coautores de projetos

Apoio acadêmico e contestação de notas

O apoio acadêmico relacionado a deficiência pode ser solicitado ao Office of Accessible Education (OAE)
Pedidos de revisão de nota podem ser enviados pelo Gradescope em até 3 dias após a divulgação da nota
Na reavaliação, toda a tarefa pode ser corrigida novamente

Créditos e modalidade da disciplina

Mesmo no regime Credit/No Credit, aplicam-se os mesmos critérios de avaliação
Com C- ou mais (aprox. 70%), é concedido CR

Outros

Alunos da SCPD podem fazer consultas administrativas por um e-mail específico
O design do site foi feito por Andrej Karpathy

1 comentários

GN⁺ 2025-11-28

Comentários do Hacker News

Fiquei animado achando que os vídeos das aulas tinham sido liberados, mas quando fui ver, estavam privados
Na época da pandemia, várias instituições abriram materiais para o mundo inteiro, mas hoje a tendência é fechar não só aulas novas como também vídeos antigos
Até no MIT OCW, quando se chega aos cursos avançados de pós-graduação, os materiais somem
Claro que entendo que a universidade queira priorizar ex-alunos, mas para liberar materiais básicos como vídeos de aula, na prática o custo é quase zero
Esse tipo de material parece gerar um valor enorme para o mundo
- Os vídeos das aulas de 2024 estão em uma playlist no YouTube
- Também existe o argumento de que, se você divulgar material novo, fica mais fácil para outras instituições plagiarem
  Alguns professores não querem compartilhar slides ou gravações por questões de direitos autorais
  Mas essa postura parece criar exclusividade por meio de barreiras legais, e não por mérito real
  No fim, quem se beneficia são apenas os alunos que pagaram mensalidades caras, os instrutores que não querem mudar e os administradores universitários
Existe a frase: “RL é o pior método de aprendizado, exceto por todos os outros”
Muitos cientistas acham que, daqui a 10 anos, RL não será mais a abordagem dominante no treinamento de modelos de ponta
Eu concordo, e recomendo fazer este curso pensando também em outros paradigmas
Assim como a geração de imagens avançou com diffusion model e o GPT deu um salto com RLHF, RL também não deve ser o estágio final
Nossa tarefa é encontrar algo melhor do que isso
- Costuma-se presumir que as pessoas só se importam com geração de imagem ou texto, mas RL é excelente em problemas de controle
  Se houver tempo de execução suficiente, ele garante matematicamente a solução ótima
  Por isso carros autônomos usam RL, não GPT
- Na prática, RL está mais para um método de geração de dataset do que propriamente para um método de aprendizado
- Na indústria de publicidade, RL continua sendo usado intensamente
  Ao otimizar de milhões a bilhões de visitas, adicionar contextual multi-armed bandit é muito eficaz para induzir compras
- Fico curioso sobre qual paradigma seria adequado para problemas de otimização combinatória (combinatorial optimization) ou ambientes baseados em simulação
- Eu pensava em RLHF como uma estratégia de estudante para aumentar nota em prova
  Mas, no trabalho real, percebi que a generalização out-of-distribution não é possível com simples aprendizado baseado em recompensa
Eu estava curioso se os vídeos estavam públicos, e as aulas do semestre de primavera estão nesta playlist no YouTube
Vindo de alguém que só estudou ML tradicional, fico confuso sobre como aplicar RL a problemas gerais
Por exemplo, em classificação binária com BCE loss ou em previsão de preço de imóveis, não consigo imaginar como forçar o uso de RL
Não consigo visualizar como conectar isso à função de perda
- Ao decidir se deve usar RL, há três pontos a considerar: ① quanta informação de perda cada exemplo fornece, ② se é possível ajustar o modelo com esse sinal de perda e ③ a complexidade do espaço de características
  Em problemas de regressão claros, como previsão de preço de imóveis, os métodos tradicionais já funcionam bem o suficiente, e RL é desnecessário
  Já em problemas de decisão sequencial como Go, o sinal de recompensa é escasso e não é claro como melhorar a estratégia, então RL faz sentido
- No meu caso, eu não usaria RL
  RL é útil em situações complexas sem rótulos, mas mesmo problemas como xadrez no fim das contas dependem de convertê-los em problemas de aprendizado supervisionado
- RL é uma técnica para encontrar uma política ótima em um processo de decisão de Markov (MDP)
  Ela é adequada para problemas de decisão sequencial em que os espaços de estado e ação estão definidos, mas não se encaixa em classificação binária ou regressão
  RL é forte em problemas nos quais você precisa tomar uma decisão agora sem conhecer os resultados futuros
Muita gente diz que RL é instável e difícil de convergir
Os pesquisadores de Stanford também reconhecem isso
Fico me perguntando se existe alguma solução
- FlowRL é uma alternativa possível
  Em vez de aprender apenas um único valor máximo, ele aprende a distribuição completa de recompensas, aumentando a estabilidade
Se você ouviu o podcast do Ilya, o título deste curso fica interessante
- Surgiu até a piada: “Então no fim das contas o inverno da IA está chegando?”
- Também houve quem perguntasse de qual podcast estavam falando
Estou procurando livros recomendados sobre RL
Já estudei deep learning o suficiente
Estou considerando Reinforcement Learning do Sutton, Reinforcement Learning, an overview de Kevin Patrick Murphy e o novo livro de Sebastian Raschka
- Algorithms for Decision Making, de Kochenderfer e outros, também aborda perspectivas relacionadas a RL
  O PDF gratuito pode ser baixado em algorithmsbook.com

CS234: Aprendizado por Reforço — Inverno de 2025

Visão geral e funcionamento do curso

Pré-requisitos

Objetivos de aprendizagem

Resumo do cronograma

Livro-texto e materiais de referência

Peso das avaliações

Política de atraso e envio

Provas

Tarefas e envio

Integridade acadêmica e uso de ferramentas de IA

Apoio acadêmico e contestação de notas

Créditos e modalidade da disciplina

Outros

Leituras relacionadas

1 comentários

Comentários do Hacker News