pumpkin-book 【第16章强化学习】待推导或待解析公式征集+答疑专区

在这里，你可以： 1.评论留下西瓜书第16章你觉得需要补充推导细节或者解析的公式编号，我们看到后会尽快进行补充； 2.评论留下你对南瓜书第16章里相关内容的疑问，我们看到后会尽快进行答疑。

Jul 25 '19 02:07 Sm1les

想问下，16章第二节，书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢？

Aug 09 '19 12:08 fishfishfishfishfish

@fishfishfishfishfish 同学你好，我代16章的主要贡献者回答一下你：“奖赏是对策略的每次平均反馈求和，平均有两种，一种是算术平均，对应T步累计，另一种是加权平均，对应γ折扣累计”

Aug 09 '19 14:08 Sm1les

@Sm1les 谢谢您的回答，但我还是不太清楚。追问一下，为什么E里面，一个是求和到T，一个是求和到正无穷呢？“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢？

Aug 10 '19 00:08 fishfishfishfishfish

@Sm1les 谢谢您的回答，但我还是不太清楚。追问一下，为什么E里面，一个是求和到T，一个是求和到正无穷呢？“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢？

同学您好，我是负责16章的同学，r折扣是理论上从r^0累计到r^无穷，而r是属于(0,1)，所以每次累计后，奖赏权重在降低，r^无穷 = 0，可以这样理解：对比T步累计奖赏，r折扣中的最后一些步由于权重很低所以可以忽略不计，但因为要严谨公式上表达还是累计到无穷步。（从某一步开始以后的累计，对整个奖赏作用很微小，可以参考高数中求极限的思想理解。）从极限的角度思考的话，T步累计也可以用于无穷步的游戏（前提是存在无穷步的游戏），只不过这里的极限是常数极限。

Aug 10 '19 03:08 MrBigFan

@MrBigFan 非常感谢！为什么会有这两种方法呢，“T步累积”还比较好理解，但是"γ折累积"为什么是越到后面奖赏权重越低呢？

Aug 10 '19 06:08 fishfishfishfishfish

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成了确定性表示π(x)，表示看到状态x就采取对应动作，为什么这两个部分对π的描述不一致呢？

Aug 10 '19 08:08 fishfishfishfishfish

@MrBigFan 非常感谢！为什么会有这两种方法呢，“T步累积”还比较好理解，但是"γ折累积"为什么是越到后面奖赏权重越低呢？

同学您好，r折扣累计奖赏的每一步是基于前一步反馈得到的信息，当然每一步的学习效率是逐渐减小的（后一步学习的信息很难得到像前一步学习一样多的信息，最多100%）所以权重也是逐渐减小的。

Aug 10 '19 09:08 MrBigFan

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成了确定性表示π(x)，表示看到状态x就采取对应动作，为什么这两个部分对π的描述不一致呢？

16.3.1是策略评估，当然和采取动作的概率有关，但16.3.2是策略改进，是对已经形成的(近似)最优策略更新，就变成了确定性表示。

Aug 10 '19 09:08 MrBigFan

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀

Aug 10 '19 11:08 fishfishfishfishfish

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀

同学你好，最近才结束回复你，确定性也是一种概率，可以代进去

Aug 19 '19 02:08 MrBigFan

3fb4031aca4c09d641ca70f7460dc0a 请问南瓜书中强化学习16.8公式的推导这一步是怎么从上一步推导出来的啊？可以说说具体吗？

Aug 19 '19 09:08 Laqw

@Laqw 同学你好，这是我前几天推到16.7和16.8的笔记，希望能帮到你。如果有错还请见谅推导.pdf

Aug 19 '19 10:08 fishfishfishfishfish

@MrBigFan 好的谢谢~

Aug 19 '19 10:08 fishfishfishfishfish

@fishfishfishfishfish 谢谢你的笔记

Aug 19 '19 10:08 Laqw

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

Jul 16 '20 02:07 ZinYY

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

你好，这个证明的解释是这样的，我们需要证明式子(31)，对比式子(29)，我们会不难发现只需要得到r_t+1的表达式就可以了。然后我们分析r_t+1这个表达式，含义就是第t+1步的奖赏，那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣，所以我这里最后说r_t+1可以由γ折扣累积奖赏估计到，那这样就证明了公式(31)

Jul 21 '20 11:07 MrBigFan

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

另外，至于公式(29)和(31)，西瓜书上也有解释，这两个都是第t+1次采样的值函数。

Jul 21 '20 11:07 MrBigFan

这一步的等号感觉没什么道理吧？29考虑的是单步RL，31是多步RL的？

另外，至于公式(29)和(31)，西瓜书上也有解释，这两个都是第t+1次采样的值函数。 r_t+1这个表达式，含义就是第t+1步的奖赏，那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。

我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和？又不是第t+1步的累积奖赏。还有，我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义，是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗？

Feb 08 '21 07:02 yllgl

您好！

对于等式(16.14)，我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程，考虑了所有的动作a。为何此处可以只取其中的一个动作呢？

谢谢解答！

May 25 '21 01:05 4fee8fea

@fishfishfishfishfish 请问一下这个p代表什么意思，然后如何通过这个p得出下面的公式

Jul 19 '21 07:07 rikonaka

您好！

对于等式(16.14)，我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程，考虑了所有的动作a。为何此处可以只取其中的一个动作呢？

谢谢解答！

你好，抱歉没有注意的你的问题，这是因为式16.14限制了该累计奖赏是最优的，因此需要取能够使得累计奖赏达到最优的动作。

Aug 02 '21 07:08 archwalker

请问能否给出在T步累积奖赏下的16.16公式的证明？西瓜书中公式16.14并没有严格的数学证明（您给上一位同学的回答似乎不严谨，尤其是对于T步累积奖赏的值函数而言，因为您没有给出“T步累积奖赏”下16.16的证明），在国外许多论坛也有很多有关16.14的提问，现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14，过程如下（来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes）。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16，我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里，也没有使用“T步累积奖赏”推导Bellman最优公式，请问要如何解释这个问题？

Oct 14 '21 06:10 ChenZQ-nano

请问这里为什么还是x’呢？换句话说，之前的x‘和这一行的x’肯定不能混用吧？这样写会不会太令人费解了。。

Nov 11 '21 02:11 TangJiakai

这等号觉得有什么道理吧？29步是单步RL，31是多步RL的？

你好，这个证明的解释是这样的，然后我们需要证明式子（31），对比式子（29），我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣，所以我这里最后说r_t+1可以由γ折扣奖赏估计到，那这样就证明了公式(31)

我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，即为$R_{x \to x'}^{a}$，哪里有后面的折扣累计奖励？

Feb 21 '22 13:02 Jian-Yin-Shine

请问这两行是怎么推导出来的，并且第一行的两个加和符号下面的x'应该分别是x'和x‘’吧，代表着时序2的状态和时序3的状态。期待回复。

Apr 08 '22 13:04 chanforg

建议把公式（16.4）修改一下 Q9F3~5SO SBE3)67 {AXE

Apr 26 '22 13:04 hanxiDuan

@hanxiDuan 谢谢雨含，我们已收到，会尽快更新上去 :)

Apr 26 '22 14:04 Sm1les

请问这里为什么还是x’呢？换句话说，之前的x‘和这一行的x’肯定不能混用吧？这样写会不会太令人费解了。。后来解决了吗

Sep 25 '22 09:09 huskyth

这等号觉得有什么道理吧？29步是单步RL，31是多步RL的？

你好，这个证明的解释是这样的，然后我们需要证明式子（31），对比式子（29），我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣，所以我这里最后说r_t+1可以由γ折扣奖赏估计到，那这样就证明了公式(31)

我们分析r_t+ 1这个表达式，表示状态就是第t+1步的奖赏，即为$R_{x \to x'}^{a}$，哪里有后面的折扣累计奖励？

同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗？

Aug 27 '23 04:08 48066

中午好！您的邮件我已经收到了，谢谢您的支持！

Aug 27 '23 04:08 mrxiaojie

pumpkin-book pumpkin-book copied to clipboard

【第16章强化学习】待推导或待解析公式征集+答疑专区

pumpkin-book
pumpkin-book copied to clipboard