- Este livro tem como objetivo apresentar os conceitos básicos, problemas e algoritmos de reinforcement learning de forma matematicamente acessível.
- Explica a partir de uma perspectiva matemática não apenas o procedimento dos algoritmos, mas também por que foram projetados dessa forma e por que são eficazes.
- A profundidade matemática é ajustada a um nível apropriado, com exemplos que o leitor pode escolher ler seletivamente.
- Separa as ideias centrais dos algoritmos dos elementos complexos para ajudar o leitor a compreendê-los melhor.
- Cada capítulo é estruturado com base no anterior e fornece a base para o próximo.
Conteúdo
- Este livro é composto por 10 capítulos e dividido em duas partes: ferramentas básicas e algoritmos.
- Os capítulos são inter-relacionados, e é necessário estudar primeiro os capítulos iniciais.
Público leitor
- Este livro é voltado a alunos de graduação avançada, pós-graduandos, pesquisadores e profissionais interessados em reinforcement learning.
- Começa pelos conceitos básicos para que possa ser compreendido mesmo sem conhecimento prévio de reinforcement learning.
- É necessário ter conhecimentos de teoria da probabilidade e álgebra linear, e a base matemática necessária está incluída no apêndice.
Vídeos das aulas
- É possível aprender melhor combinando o livro com os vídeos das aulas.
- Os vídeos das aulas em chinês podem ser vistos no canal do Bilibili e no canal do YouTube, e até fevereiro de 2025 registraram mais de 1.300.000 visualizações.
- Os vídeos das aulas em inglês foram enviados ao YouTube.
Sobre o autor
- As informações sobre o autor podem ser consultadas no site pessoal e no site do grupo de pesquisa.
- Desde 2019, o autor ministra disciplinas de pós-graduação sobre reinforcement learning, e este livro foi preparado a partir das notas de aula.
- Espera-se que este livro ajude os leitores a entrar com fluidez na área de reinforcement learning.
Citação
- Título do livro: "Mathematical Foundations of Reinforcement Learning"
- Autor: S. Zhao
- Ano de publicação: 2025
- Editora: Springer Nature Press e Tsinghua University Press
Histórico de atualizações
- Fevereiro de 2025: mais de 5.000 estrelas
- Dezembro de 2024: mais de 4.000 estrelas
- Outubro de 2024: design da capa do livro concluído
- Setembro de 2024: revisão final antes da publicação pela Springer
- Agosto de 2024: mais de 3.000 estrelas e adição de código
- Junho de 2024: revisão final antes da publicação
- Abril de 2024: adição do código do ambiente Grid World
- Março de 2024: 2.000 estrelas
- Março de 2024: terceiro rascunho publicado online
- Setembro de 2023: mais de 1.000 estrelas
- Agosto de 2023: segundo rascunho publicado online
- Novembro de 2022: publicação conjunta prevista com Springer Nature e Tsinghua University Press
- Outubro de 2022: notas de aula e vídeos publicados online
- Agosto de 2022: primeiro rascunho publicado online
2 comentários
Obrigado por apresentar um material tão bom.
Comentários do Hacker News
A era do OpenAI Gym no aprendizado por reforço (RL) tinha como grande vantagem ser acessível para iniciantes. Dava para aprender RL como hobby em ambientes pequenos e aplicar em problemas simples como Cartpole. Fico curioso se existem tarefas ou ambientes de aprendizado de RL igualmente acessíveis relacionados a LLMs. Também queria saber se há algo que dê para fazer na área de LLM x RL com um MacBook Air comum
Outro excelente material sobre RL é a coleção de livros didáticos do Mykel Kochenderfer
Este livro diz que o leitor precisa ter conhecimentos de teoria da probabilidade e álgebra linear. Esse tipo de frase sempre deve ser levado com um pé atrás e com o entendimento de que foi escrito por nerds de matemática. O programador médio com habilidade matemática mediana deve tomar cuidado
Não sei como transformar o entendimento desse material em conseguir um emprego na área. No momento continuo como engenheiro de software (SWE)