Yiyuan Yang

Results 15 comments of Yiyuan Yang

> 最后一个问题 '第n步的值函数更新公式',不应该是第二章说的策略评估(预测问题)的动态规划方程,即状态价值函数的贝尔曼方程吗?为啥是Q-Learning的,那你为啥要将这个问题写到第二章??以及interview的第四个问题的两个方程为啥又不是之前第二章讲过的贝尔曼方程???跟贝尔曼期望方程也不同,为啥要加入奖励??? 您好,第二章介绍了一部分价值迭代的内容,所以安排了这个interview问题;第四个问题没有太理解您的意思“两个方程为啥又不是之前第二章讲过的贝尔曼方程”,此外贝尔曼方程是实时奖励+未来衰减后的奖励,可以参考正文~

> 高冷的面试官:请问value-based和policy-based的区别是什么? > > 答: > > 生成policy上的差异:前者随机,后者确定。这里是不是反了 非常感谢你的留言。这里确实写错了,已经更改为“前者确定,后者随机”。另外,该句话后面的描述是没有问题的。

> “因而估计具有偏差但方差较小”应该是“因而估计具有偏差大但方差较小”吧,打漏了一个“大”字 嗯嗯对的,总结起来就是:MC方法偏差小但方差大,TD方法偏差大但方差小(当然是相对来说)。谢谢你帮忙捉虫~

> 这读物!这作者!相见恨晚!优秀!!感谢!! 谢谢支持😃

> 是的,完成的作业+注释,仅供参考~