trafficstars

你好，这是刘洪佳的强化学习笔记

第一次系统学习强化学习，本笔记语言为中文。

我的笔记分布

🥊 入门学习 / 读书笔记 GitHub链接：PiperLiu/Reinforcement-Learning-practice-zh
💻 阅读论文 / 视频课程的笔记 GitHub链接：PiperLiu/introRL
✨ 大小算法 / 练手操场 GitHub链接：PiperLiu/Approachable-Reinforcement-Learning

正在进行的学习内容与计划中的内容

[X] 强化学习圣经的第一遍学习 [details]
[ ] Deep Reinforcement Learning 的第一遍阅读 [details]
[ ] Approximate Dynamic Programming 的第一遍阅读 [details]

对强化学习圣经的第一遍学习

输出是最好的学习，我的学习方法如下：

读书，为了保证进度，我选择阅读中文版书籍[1-2]；
一般地，每读完一章，我会把其知识体系用自己的语言概括下来，这会引发我的很多思考：完整地将其表述出来，会弥补我读书时没有注意到的问题；
结合代码的笔记与心得，以 .ipynb 文件形式写在了./practice/中，没有代码的，以 .md 形式写在了./mathematics/中；
我会参考他人的笔记与思考，对我帮助很大的有：
- github.com/ShangtongZhangn 使用python复现书上案例；
- github.com/brynhayder 对于本书的笔记，对练习题的解答。

目前已完成：

[X] 第I部分表格型求解方法学习总结 link
[X] 第II部分表格型近似求解方法
[X] 第III部分表格型深入研究

学习笔记目录（所有的.ipynb链接已转换到nbviewer.jupyter.org/github/）：

第I部分表格型求解方法

摇臂赌博机：
- 实例代码：01-Stochastic-Multi-Armed-Bandit.ipynb
- 数学公式的讨论：梯度赌博机算法中，偏好函数更新：梯度上升公式是精确梯度上升的随机近似的证明.md
马尔科夫链与贝尔曼方程：
- 实例：02-MDP-and-Bellman-Equation.ipynb
动态规划：
- 实例1：./practice/03-01-Grid-World.ipynb
- 实例2：./practice/03-02-Policy-Iteration.ipynb
- 实例3：./practice/03-03-Value-Iteration-and-Asynchronous-etc.ipynb
蒙特卡洛方法：./practice/04-Monte-Carlo-Methods.ipynb
（单步）时序差分学习：
- 评估价值部分：./practice/05-01-Temporal-Difference-Prediction.ipynb
- 控制部分：./practice/05-02-Temporal-Difference-Control.ipynb
n 步自举法：./practice/06-N-Step-Bootstrapping.ipynb
表格型方法的规划与学习：
- 书前八章总结：./mathematics/表格型方法总结.md
- Dyna-Q 与优先遍历实例：./practice/07-01-Maze-Problem-with-DynaQ-and-Priority.ipynb
- 期望估计与采用估计：./practice/07-02-Expectation-vs-Sample.ipynb
- 轨迹采样：./practice/07-03-Trajectory-Sampling.ipynb

第II部分表格型近似求解方法

第9章：基于函数逼近的同轨策略预测：
- 心得：第9章：基于函数逼近的同轨策略预测.md
- 实例（随机游走与粗编码大小）：./practice/On-policy-Prediction-with-Approximation.ipynb
第10章：基于函数逼近的同轨策略控制:
- 心得：第10章：基于函数逼近的同轨策略控制.md
- 实例（n步Sarsa控制与平均收益实例）：./practice/Mountain-Car-Acess-Control.ipynb
第11章：基于函数逼近的离轨策略方法：
- 心得：第11章：基于函数逼近的离轨策略方法.md
- 实例：./practice/Counterexample.ipynb
第12章：资格迹：
- 心得：第12章：资格迹.md
- 实例:./practice/Random-Walk-Mountain-Car.ipynb
第13章：策略梯度方法
- 心得：第13章：策略梯度方法.md
- 实例：./practice/Short-Corridor.ipynb

深度强化学习第一遍阅读

听说这本综述不错：

Li Y. Deep reinforcement learning: An overview[J]. arXiv preprint arXiv:1701.07274, 2017.

如果想看看论文与代码，可以考虑先看：

https://github.com/ShangtongZhang/DeepRL

近似动态规划的第一遍阅读

在管理中，强化学习（近似动态规划）有哪些应用？老师给我推荐了这本书：

Powell W B. Approximate Dynamic Programming: Solving the curses of dimensionality[M]. John Wiley & Sons, 2007.

参考资料

[1] 强化学习（第2版）; [加拿大] Richard S. Sutton, [美国] Andrew G. Barto; 俞凯译.
[2] 在上述书籍出版前，有人已经开始了翻译工作：http://rl.qiwihui.com/.
[3] 英文电子原版在：http://rl.qiwihui.com/zh_CN/latest/chapter1/introduction.html，已经下载到本仓库./resources/Reinforcement Learning - An Introduction 2018.pdf
[4] 强化学习读书笔记系列;公众号：老薛带你学Python(xue_python)

Reinforcement-Learning-practice-zh
Reinforcement-Learning-practice-zh copied to clipboard

Metadata

你好，这是刘洪佳的强化学习笔记

我的笔记分布

正在进行的学习内容与计划中的内容

对强化学习圣经的第一遍学习

第I部分表格型求解方法

第II部分表格型近似求解方法

深度强化学习第一遍阅读

近似动态规划的第一遍阅读

参考资料

更多平台

← Metadata

Owner

Metadata

Reinforcement-Learning-practice-zh Reinforcement-Learning-practice-zh copied to clipboard

Metadata

你好，这是刘洪佳的强化学习笔记

我的笔记分布

正在进行的学习内容与计划中的内容

对强化学习圣经的第一遍学习

第I部分 表格型求解方法

第II部分 表格型近似求解方法

深度强化学习第一遍阅读

近似动态规划的第一遍阅读

参考资料

更多平台

← Metadata

Owner

Metadata

Reinforcement-Learning-practice-zh
Reinforcement-Learning-practice-zh copied to clipboard

第I部分表格型求解方法

第II部分表格型近似求解方法