easy-rl
easy-rl copied to clipboard
/chapter12/chapter12
https://datawhalechina.github.io/easy-rl/#/chapter12/chapter12
Description
请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?
请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?
您好,DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现,具体可参考: http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf
Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。
您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。
不知道我的理解是否正确,编者请参考一下。
Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。
您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。
不知道我的理解是否正确,编者请参考一下。
感谢您的反馈,这句话确实不妥,已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声,从而最大化未来的总收益 。
作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的
作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的
感谢提醒,其实这个参数可衰减可不衰减,根据调参需求来,跟dqn中e-greedy策略的e一样,注释可能没写清楚
作者你好,我有一个不成熟的理解,关于图12.4下面第一句话感觉不够严谨,这是我自己推敲出来问gpt确认的。 问题:DDPG 是 深度Q网络的一个扩展版本,可以扩展到连续动作空间。感觉这句话不是很对,因为ddpg是从pg和ac这边推倒出来的,而不是dqn这边的原理。只不过借鉴了dqn的部分思想来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展? GPT的回答:你说得没错。DDPG是从Actor-Critic算法中推导而来,主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些思想,但是DDPG的核心是Actor-Critic算法,而不是DQN。所以可以说,DDPG是Actor-Critic算法的一种扩展,而不是DQN的扩展。 你们可以看看是不是这个道理,我一直对这句话有困惑,因为他们的推倒根基不同,所以这样说更好一点:ddpg是ac的一个扩展版本,通过DQN的部分训练方法帮助训练。