PPOxFamily icon indicating copy to clipboard operation
PPOxFamily copied to clipboard

Chapter3 Discussion

Open PaParaZz1 opened this issue 2 years ago • 3 comments

本 issue 将会追踪和记录各种有关课程第三讲的问题和思考,欢迎有兴趣的同学在这个 issue 中评论,课程组会定期整理信息。

最新的 第三讲 QA 合集文档(2023.02.20更新)

PaParaZz1 avatar Feb 16 '23 05:02 PaParaZz1

您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!

jianzuo avatar Mar 16 '23 07:03 jianzuo

您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!

  • 连续变量的取值分布是什么,可以检查是否做了归一化
  • 离散变量如果是年龄(整数数值,那其实也需要归一化
  • 如果观察变量不需要考虑特别细粒度的情形,那可以按照分布划分成多个级别,在哪个级别就变成对应的one-hot,从而简化
  • 这样简单的观察变量,神经网络不要太复杂,过于复杂会难以优化
  • 其他影响收敛的因素也很多,可以贴一些训练曲线相关的信息方便后续讨论

PaParaZz1 avatar Mar 21 '23 09:03 PaParaZz1

191955286-7c309e9d-6e35-491f-93b3-b14cd1fe033f (1) 请问一下在羊了个羊的encoder过程中,经过MLP表征学习的全局信息(a1,a2)和经过transformer表征学习的牌面信息(b1, b2, b3),是简单的连接起来(a1,a2, b1, b2, b3),就送进actor-critic模型了吗?

xfl11 avatar Jun 14 '23 05:06 xfl11