Xinyu Chen comments

Results 8 comments of


Xinyu Chen

【第16章强化学习】待推导或待解析公式征集+答疑专区

想问下，16章第二节，书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢？ ![image](https://user-images.githubusercontent.com/17529439/62780646-ba29ee80-bae8-11e9-99f6-fb59971d192a.png)

【第16章强化学习】待推导或待解析公式征集+答疑专区

@Sm1les 谢谢您的回答，但我还是不太清楚。追问一下，为什么E里面，一个是求和到T，一个是求和到正无穷呢？“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢？

【第16章强化学习】待推导或待解析公式征集+答疑专区

@MrBigFan 非常感谢！为什么会有这两种方法呢，“T步累积”还比较好理解，但是"γ折累积"为什么是越到后面奖赏权重越低呢？

【第16章强化学习】待推导或待解析公式征集+答疑专区

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成了确定性表示π(x)，表示看到状态x就采取对应动作，为什么这两个部分对π的描述不一致呢？

【第16章强化学习】待推导或待解析公式征集+答疑专区

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀 ![image](https://user-images.githubusercontent.com/17529439/62821375-4221fe00-bba6-11e9-9a7b-faced02f31d8.png)

【第16章强化学习】待推导或待解析公式征集+答疑专区

@Laqw 同学你好，这是我前几天推到16.7和16.8的笔记，希望能帮到你。如果有错还请见谅 [推导.pdf](https://github.com/datawhalechina/pumpkin-book/files/3515365/default.pdf)

【第16章强化学习】待推导或待解析公式征集+答疑专区

@MrBigFan 好的谢谢~

Problem about running MonetDBLite with gem5 syscall-emulation simulation

Thanks！It seems difficult to modify gdk_posix. I will look into MonetDBe later.