48066

Results 1 comments of 48066

> > > ![图片](https://user-images.githubusercontent.com/17381012/87619089-e9f86200-c74d-11ea-9e5f-f81d3944c159.png) > > > 这等号觉得有什么道理吧?29步是单步RL,31是多步RL的? > > > > > > 你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31) > > 我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励? 同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗?