pumpkin-book icon indicating copy to clipboard operation
pumpkin-book copied to clipboard

【第16章强化学习】待推导或待解析公式征集+答疑专区

Open Sm1les opened this issue 4 years ago • 30 comments

在这里,你可以: 1.评论留下西瓜书第16章你觉得需要补充推导细节或者解析的公式编号,我们看到后会尽快进行补充; 2.评论留下你对南瓜书第16章里相关内容的疑问,我们看到后会尽快进行答疑。

Sm1les avatar Jul 25 '19 02:07 Sm1les

想问下,16章第二节,书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢? image

fishfishfishfishfish avatar Aug 09 '19 12:08 fishfishfishfishfish

@fishfishfishfishfish 同学你好,我代16章的主要贡献者回答一下你:“奖赏是对策略的每次平均反馈求和,平均有两种,一种是算术平均,对应T步累计,另一种是加权平均,对应γ折扣累计”

Sm1les avatar Aug 09 '19 14:08 Sm1les

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

fishfishfishfishfish avatar Aug 10 '19 00:08 fishfishfishfishfish

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

同学您好,我是负责16章的同学,r折扣是理论上从r^0累计到r^无穷,而r是属于(0,1),所以每次累计后,奖赏权重在降低,r^无穷 = 0,可以这样理解:对比T步累计奖赏,r折扣中的最后一些步由于权重很低所以可以忽略不计,但因为要严谨公式上表达还是累计到无穷步。(从某一步开始以后的累计,对整个奖赏作用很微小,可以参考高数中求极限的思想理解。)从极限的角度思考的话,T步累计也可以用于无穷步的游戏(前提是存在无穷步的游戏),只不过这里的极限是常数极限。

MrBigFan avatar Aug 10 '19 03:08 MrBigFan

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

fishfishfishfishfish avatar Aug 10 '19 06:08 fishfishfishfishfish

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

fishfishfishfishfish avatar Aug 10 '19 08:08 fishfishfishfishfish

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

同学您好,r折扣累计奖赏的每一步是基于前一步反馈得到的信息,当然每一步的学习效率是逐渐减小的(后一步学习的信息很难得到像前一步学习一样多的信息,最多100%)所以权重也是逐渐减小的。

MrBigFan avatar Aug 10 '19 09:08 MrBigFan

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

16.3.1是策略评估,当然和采取动作的概率有关,但16.3.2是策略改进,是对已经形成的(近似)最优策略更新,就变成了确定性表示。

MrBigFan avatar Aug 10 '19 09:08 MrBigFan

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀 image

fishfishfishfishfish avatar Aug 10 '19 11:08 fishfishfishfishfish

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀

同学你好,最近才结束回复你,确定性也是一种概率,可以代进去

MrBigFan avatar Aug 19 '19 02:08 MrBigFan

3fb4031aca4c09d641ca70f7460dc0a 请问南瓜书中强化学习16.8公式的推导这一步是怎么从上一步推导出来的啊?可以说说具体吗?

Laqw avatar Aug 19 '19 09:08 Laqw

@Laqw 同学你好,这是我前几天推到16.7和16.8的笔记,希望能帮到你。如果有错还请见谅 推导.pdf

fishfishfishfishfish avatar Aug 19 '19 10:08 fishfishfishfishfish

@MrBigFan 好的 谢谢~

fishfishfishfishfish avatar Aug 19 '19 10:08 fishfishfishfishfish

@fishfishfishfishfish 谢谢你的笔记

Laqw avatar Aug 19 '19 10:08 Laqw

image 这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

ZinYY avatar Jul 16 '20 02:07 ZinYY

image 这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。然后我们分析r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣累积奖赏估计到,那这样就证明了公式(31)

MrBigFan avatar Jul 21 '20 11:07 MrBigFan

image 这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。

MrBigFan avatar Jul 21 '20 11:07 MrBigFan

image 这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。 r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。

我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和?又不是第t+1步的累积奖赏。还有,我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义,是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗?

yllgl avatar Feb 08 '21 07:02 yllgl

image

您好!

对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?

谢谢解答!

4fee8fea avatar May 25 '21 01:05 4fee8fea

图片 @fishfishfishfishfish 请问一下这个p代表什么意思,然后如何通过这个p得出下面的公式

rikonaka avatar Jul 19 '21 07:07 rikonaka

image

您好!

对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?

谢谢解答!

你好,抱歉没有注意的你的问题,这是因为式16.14限制了该累计奖赏是最优的,因此需要取能够使得累计奖赏达到最优的动作。

archwalker avatar Aug 02 '21 07:08 archwalker

请问能否给出在T步累积奖赏下的16.16公式的证明?西瓜书中公式16.14并没有严格的数学证明(您给上一位同学的回答似乎不严谨,尤其是对于T步累积奖赏的值函数而言,因为您没有给出“T步累积奖赏”下16.16的证明),在国外许多论坛也有很多有关16.14的提问,现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14,过程如下(来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes)。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16,我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里,也没有使用“T步累积奖赏”推导Bellman最优公式,请问要如何解释这个问题?

截屏2021-10-14 下午2 15 55 截屏2021-10-14 下午2 16 12

ChenZQ-nano avatar Oct 14 '21 06:10 ChenZQ-nano

请问这里为什么还是x’呢? image 换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。

TangJiakai avatar Nov 11 '21 02:11 TangJiakai

图片 这等号觉得有什么道理吧?29步是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)

我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?

Jian-Yin-Shine avatar Feb 21 '22 13:02 Jian-Yin-Shine

image 请问这两行是怎么推导出来的,并且第一行的两个加和符号下面的x'应该分别是x'和x‘’吧,代表着时序2的状态和时序3的状态。期待回复。

chanforg avatar Apr 08 '22 13:04 chanforg

建议把公式(16.4)修改一下 Q9F3~5SO SBE3)67 {AXE

hanxiDuan avatar Apr 26 '22 13:04 hanxiDuan

@hanxiDuan 谢谢雨含,我们已收到,会尽快更新上去 :)

Sm1les avatar Apr 26 '22 14:04 Sm1les

请问这里为什么还是x’呢? image 换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。 后来解决了吗

huskyth avatar Sep 25 '22 09:09 huskyth

图片 这等号觉得有什么道理吧?29步是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)

我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?

同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗?

48066 avatar Aug 27 '23 04:08 48066

中午好!您的邮件我已经收到了,谢谢您的支持!

mrxiaojie avatar Aug 27 '23 04:08 mrxiaojie