easy-rl icon indicating copy to clipboard operation
easy-rl copied to clipboard

/chapter2/chapter2_questions&keywords

Open qiwang067 opened this issue 3 years ago • 5 comments

https://datawhalechina.github.io/easy-rl/#/chapter2/chapter2_questions&keywords

Description

qiwang067 avatar May 15 '21 05:05 qiwang067

谢谢博主~写的超级细!不过interview的最后一个问题 ''第n步的值函数更新公式'' 是怎么得到的呀?

Strawberry47 avatar Nov 03 '21 02:11 Strawberry47

谢谢博主~写的超级细!不过interview的最后一个问题 ''第n步的值函数更新公式'' 是怎么得到的呀?

谢谢你的认可~,interview的最后一个问题的更新公式是基于Q-learning的,具体推到可以见第三章的正文内容,具体位置在“Model-free Control”小节,希望对你有所帮助!

yyysjz1997 avatar Nov 03 '21 06:11 yyysjz1997

最后一个问题 '第n步的值函数更新公式',不应该是第二章说的策略评估(预测问题)的动态规划方程,即状态价值函数的贝尔曼方程吗?为啥是Q-Learning的,那你为啥要将这个问题写到第二章??以及interview的第四个问题的两个方程为啥又不是之前第二章讲过的贝尔曼方程???跟贝尔曼期望方程也不同,为啥要加入奖励???

Hackerchf avatar Aug 25 '22 09:08 Hackerchf

最后一个问题 '第n步的值函数更新公式',不应该是第二章说的策略评估(预测问题)的动态规划方程,即状态价值函数的贝尔曼方程吗?为啥是Q-Learning的,那你为啥要将这个问题写到第二章??以及interview的第四个问题的两个方程为啥又不是之前第二章讲过的贝尔曼方程???跟贝尔曼期望方程也不同,为啥要加入奖励???

您好,第二章介绍了一部分价值迭代的内容,所以安排了这个interview问题;第四个问题没有太理解您的意思“两个方程为啥又不是之前第二章讲过的贝尔曼方程”,此外贝尔曼方程是实时奖励+未来衰减后的奖励,可以参考正文~

yyysjz1997 avatar Aug 31 '22 02:08 yyysjz1997

能在详细一点解释2-6吗,谢谢

c7785812 avatar Jun 29 '23 12:06 c7785812