PPOxFamily
PPOxFamily copied to clipboard
Chapter3 Discussion
您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!
您好, 我有个关于观测空间设计问题想请教下。 在我的问题中observation 有两个量(a, b), float a 对应一个衰退水平(考虑为连续的),b对应age(考虑为离散的). 然后我的action其实很简单,就离散0, 1 各自对应相应动作。 请问这种问题应该就是直接把a, b作为神经网络输入进行策略学习? 由于我的问题物理意义比较明确,我知道我的策略形式。我尝试了DQN, PPO弄了很久都没能得到 较好的收敛策略。感觉我的动作空间很简单,按道理应该很好学习给出策略。请问您对 这个问题设计有相关建议吗? 谢谢!
- 连续变量的取值分布是什么,可以检查是否做了归一化
- 离散变量如果是年龄(整数数值,那其实也需要归一化
- 如果观察变量不需要考虑特别细粒度的情形,那可以按照分布划分成多个级别,在哪个级别就变成对应的one-hot,从而简化
- 这样简单的观察变量,神经网络不要太复杂,过于复杂会难以优化
- 其他影响收敛的因素也很多,可以贴一些训练曲线相关的信息方便后续讨论
请问一下在羊了个羊的encoder过程中,经过MLP表征学习的全局信息(a1,a2)和经过transformer表征学习的牌面信息(b1, b2, b3),是简单的连接起来(a1,a2, b1, b2, b3),就送进actor-critic模型了吗?