40 pontos por GN⁺ 2025-03-12 | 2 comentários | Compartilhar no WhatsApp
  • Este livro tem como objetivo apresentar os conceitos básicos, problemas e algoritmos de reinforcement learning de forma matematicamente acessível.
  • Explica a partir de uma perspectiva matemática não apenas o procedimento dos algoritmos, mas também por que foram projetados dessa forma e por que são eficazes.
  • A profundidade matemática é ajustada a um nível apropriado, com exemplos que o leitor pode escolher ler seletivamente.
  • Separa as ideias centrais dos algoritmos dos elementos complexos para ajudar o leitor a compreendê-los melhor.
  • Cada capítulo é estruturado com base no anterior e fornece a base para o próximo.

Conteúdo

  • Este livro é composto por 10 capítulos e dividido em duas partes: ferramentas básicas e algoritmos.
  • Os capítulos são inter-relacionados, e é necessário estudar primeiro os capítulos iniciais.

Público leitor

  • Este livro é voltado a alunos de graduação avançada, pós-graduandos, pesquisadores e profissionais interessados em reinforcement learning.
  • Começa pelos conceitos básicos para que possa ser compreendido mesmo sem conhecimento prévio de reinforcement learning.
  • É necessário ter conhecimentos de teoria da probabilidade e álgebra linear, e a base matemática necessária está incluída no apêndice.

Vídeos das aulas

  • É possível aprender melhor combinando o livro com os vídeos das aulas.
  • Os vídeos das aulas em chinês podem ser vistos no canal do Bilibili e no canal do YouTube, e até fevereiro de 2025 registraram mais de 1.300.000 visualizações.
  • Os vídeos das aulas em inglês foram enviados ao YouTube.

Sobre o autor

  • As informações sobre o autor podem ser consultadas no site pessoal e no site do grupo de pesquisa.
  • Desde 2019, o autor ministra disciplinas de pós-graduação sobre reinforcement learning, e este livro foi preparado a partir das notas de aula.
  • Espera-se que este livro ajude os leitores a entrar com fluidez na área de reinforcement learning.

Citação

  • Título do livro: "Mathematical Foundations of Reinforcement Learning"
  • Autor: S. Zhao
  • Ano de publicação: 2025
  • Editora: Springer Nature Press e Tsinghua University Press

Histórico de atualizações

  • Fevereiro de 2025: mais de 5.000 estrelas
  • Dezembro de 2024: mais de 4.000 estrelas
  • Outubro de 2024: design da capa do livro concluído
  • Setembro de 2024: revisão final antes da publicação pela Springer
  • Agosto de 2024: mais de 3.000 estrelas e adição de código
  • Junho de 2024: revisão final antes da publicação
  • Abril de 2024: adição do código do ambiente Grid World
  • Março de 2024: 2.000 estrelas
  • Março de 2024: terceiro rascunho publicado online
  • Setembro de 2023: mais de 1.000 estrelas
  • Agosto de 2023: segundo rascunho publicado online
  • Novembro de 2022: publicação conjunta prevista com Springer Nature e Tsinghua University Press
  • Outubro de 2022: notas de aula e vídeos publicados online
  • Agosto de 2022: primeiro rascunho publicado online

2 comentários

 
kipsong133 2025-03-13

Obrigado por apresentar um material tão bom.

 
GN⁺ 2025-03-12
Comentários do Hacker News
  • A era do OpenAI Gym no aprendizado por reforço (RL) tinha como grande vantagem ser acessível para iniciantes. Dava para aprender RL como hobby em ambientes pequenos e aplicar em problemas simples como Cartpole. Fico curioso se existem tarefas ou ambientes de aprendizado de RL igualmente acessíveis relacionados a LLMs. Também queria saber se há algo que dê para fazer na área de LLM x RL com um MacBook Air comum

    • A série de 6 aulas do Pieter Abbeel sobre fundamentos de Deep RL também é altamente recomendada. Ela oferece uma boa visão geral e intuição
    • As melhores aulas sobre aprendizado por reforço e temas relacionados são as do Dimitris Bertsekas
    • Também recomendo muito os diagramas e o vídeo introdutório de 30 minutos no YouTube que oferecem uma excelente visão visual de RL
    • Espero que surjam muitas startups de hiper crescimento usando RL para resolver problemas reais nas áreas de engenharia, logística e medicina
    • Embora LLMs estejam recebendo muita atenção agora, é surpreendente que o venture capital não esteja especialmente interessado em empresas de RL
  • Outro excelente material sobre RL é a coleção de livros didáticos do Mykel Kochenderfer

    • O livro didático em andamento do Murphy com foco em RL também vale ser mencionado
    • Para quem tiver interesse, há um repositório no GitHub que implementa a maior parte do livro do Sutton
    • Obrigado por também linkar o código do MinRL. Ao fazer pesquisa em RL, um grande problema era reproduzir estudos comparativos e validar as próprias contribuições. Uma biblioteca simples com ferramentas de visualização e um sandbox de gridworld que possa ser validado apenas com observação é muito útil
  • Este livro diz que o leitor precisa ter conhecimentos de teoria da probabilidade e álgebra linear. Esse tipo de frase sempre deve ser levado com um pé atrás e com o entendimento de que foi escrito por nerds de matemática. O programador médio com habilidade matemática mediana deve tomar cuidado

  • Não sei como transformar o entendimento desse material em conseguir um emprego na área. No momento continuo como engenheiro de software (SWE)