easy-rl /chapter2/chapter2_questions&keywords

/chapter2/chapter2_questions&keywords

Open qiwang067 opened this issue 3 years ago • 5 comments

https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2_questions&keywords

Description

May 15 '21 05:05 qiwang067

谢谢博主~写的超级细！不过interview的最后一个问题 ''第n步的值函数更新公式'' 是怎么得到的呀？

Nov 03 '21 02:11 Strawberry47

谢谢博主~写的超级细！不过interview的最后一个问题 ''第n步的值函数更新公式'' 是怎么得到的呀？

谢谢你的认可～，interview的最后一个问题的更新公式是基于Q-learning的，具体推到可以见第三章的正文内容，具体位置在“Model-free Control”小节，希望对你有所帮助！

Nov 03 '21 06:11 yyysjz1997

最后一个问题 '第n步的值函数更新公式'，不应该是第二章说的策略评估（预测问题）的动态规划方程，即状态价值函数的贝尔曼方程吗？为啥是Q-Learning的，那你为啥要将这个问题写到第二章？？以及interview的第四个问题的两个方程为啥又不是之前第二章讲过的贝尔曼方程？？？跟贝尔曼期望方程也不同，为啥要加入奖励？？？

Aug 25 '22 09:08 Hackerchf

最后一个问题 '第n步的值函数更新公式'，不应该是第二章说的策略评估（预测问题）的动态规划方程，即状态价值函数的贝尔曼方程吗？为啥是Q-Learning的，那你为啥要将这个问题写到第二章？？以及interview的第四个问题的两个方程为啥又不是之前第二章讲过的贝尔曼方程？？？跟贝尔曼期望方程也不同，为啥要加入奖励？？？

您好，第二章介绍了一部分价值迭代的内容，所以安排了这个interview问题；第四个问题没有太理解您的意思“两个方程为啥又不是之前第二章讲过的贝尔曼方程”，此外贝尔曼方程是实时奖励+未来衰减后的奖励，可以参考正文～

Aug 31 '22 02:08 yyysjz1997

能在详细一点解释2-6吗，谢谢

Jun 29 '23 12:06 c7785812

easy-rl easy-rl copied to clipboard

/chapter2/chapter2_questions&keywords

easy-rl
easy-rl copied to clipboard