Yiyuan Yang

https://yyysjz1997.github.io/ [email protected]

University of Oxford Oxford Keep Calm and Carry On！

Results 15 comments of


Yiyuan Yang

/chapter2/chapter2_questions&keywords

> 最后一个问题 '第n步的值函数更新公式'，不应该是第二章说的策略评估（预测问题）的动态规划方程，即状态价值函数的贝尔曼方程吗？为啥是Q-Learning的，那你为啥要将这个问题写到第二章？？以及interview的第四个问题的两个方程为啥又不是之前第二章讲过的贝尔曼方程？？？跟贝尔曼期望方程也不同，为啥要加入奖励？？？您好，第二章介绍了一部分价值迭代的内容，所以安排了这个interview问题；第四个问题没有太理解您的意思“两个方程为啥又不是之前第二章讲过的贝尔曼方程”，此外贝尔曼方程是实时奖励+未来衰减后的奖励，可以参考正文～

/chapter3/chapter3_questions&keywords

> 高冷的面试官：请问value-based和policy-based的区别是什么？ > > 答： > > 生成policy上的差异：前者随机，后者确定。这里是不是反了非常感谢你的留言。这里确实写错了，已经更改为“前者确定，后者随机”。另外，该句话后面的描述是没有问题的。

/chapter3/chapter3_questions&keywords

> “因而估计具有偏差但方差较小”应该是“因而估计具有偏差大但方差较小”吧，打漏了一个“大”字嗯嗯对的，总结起来就是：MC方法偏差小但方差大，TD方法偏差大但方差小（当然是相对来说）。谢谢你帮忙捉虫～

/chapter1/chapter1_questions&keywords

> 这读物！这作者！相见恨晚！优秀！！感谢！！谢谢支持😃

leeml note在线阅读地址问题

> 是的，完成的作业+注释，仅供参考～