Xinyu Chen

Results 8 comments of Xinyu Chen

想问下,16章第二节,书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢? ![image](https://user-images.githubusercontent.com/17529439/62780646-ba29ee80-bae8-11e9-99f6-fb59971d192a.png)

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀 ![image](https://user-images.githubusercontent.com/17529439/62821375-4221fe00-bba6-11e9-9a7b-faced02f31d8.png)

@Laqw 同学你好,这是我前几天推到16.7和16.8的笔记,希望能帮到你。如果有错还请见谅 [推导.pdf](https://github.com/datawhalechina/pumpkin-book/files/3515365/default.pdf)

Thanks!It seems difficult to modify gdk_posix. I will look into MonetDBe later.