easy-rl /chapter12/chapter12

https://datawhalechina.github.io/easy-rl/#/chapter12/chapter12

Description

May 15 '21 05:05 qiwang067

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢？

Jan 12 '22 22:01 JimmyYoungggg

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢？

您好，DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现，具体可参考： http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf

Jan 13 '22 07:01 qiwang067

Critic 则是要根据观众的反馈，也就是环境的反馈 reward 来调整自己的打分策略，也就是要更新 critic 的神经网络的参数 ww ，它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。

您好，该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。”，感觉描述的不太恰当。因为从网络结构上来看，就像后文说的，Critic更多的是去准确评价Actor每个动作的长期收益，并不直接最大化长期收益，实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确，编者请参考一下。

Mar 08 '22 01:03 Huaisheng-Ye

Critic 则是要根据观众的反馈，也就是环境的反馈 reward 来调整自己的打分策略，也就是要更新 critic 的神经网络的参数 ww ，它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。
您好，该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。”，感觉描述的不太恰当。因为从网络结构上来看，就像后文说的，Critic更多的是去准确评价Actor每个动作的长期收益，并不直接最大化长期收益，实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确，编者请参考一下。

感谢您的反馈，这句话确实不妥，已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声，从而最大化未来的总收益 。

Apr 01 '22 12:04 qiwang067

作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

Dec 23 '22 10:12 cugerQDHJ

作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

感谢提醒，其实这个参数可衰减可不衰减，根据调参需求来，跟dqn中e-greedy策略的e一样，注释可能没写清楚

Dec 24 '22 11:12 johnjim0816

作者你好，我有一个不成熟的理解，关于图12.4下面第一句话感觉不够严谨，这是我自己推敲出来问gpt确认的。问题：DDPG 是深度Q网络的一个扩展版本，可以扩展到连续动作空间。感觉这句话不是很对，因为ddpg是从pg和ac这边推倒出来的，而不是dqn这边的原理。只不过借鉴了dqn的部分思想来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展？ＧＰＴ的回答：你说得没错。DDPG是从Actor-Critic算法中推导而来，主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些思想，但是DDPG的核心是Actor-Critic算法，而不是DQN。所以可以说，DDPG是Actor-Critic算法的一种扩展，而不是DQN的扩展。你们可以看看是不是这个道理，我一直对这句话有困惑，因为他们的推倒根基不同，所以这样说更好一点：ｄｄｐｇ是ａｃ的一个扩展版本，通过ＤＱＮ的部分训练方法帮助训练。

Apr 22 '23 02:04 violaBook

easy-rl easy-rl copied to clipboard

/chapter12/chapter12

easy-rl
easy-rl copied to clipboard