Jie Huang (黄杰)

Results 3 issues of Jie Huang (黄杰)

作者你好! 你做的插件非常棒。希望可以像Yomichan那样可以多一个截图{{Screenshot}}的选项,这样导入Anki后就可以还原出当时查词时的情景。从视觉和听觉上去记忆就更完美了。万分感谢。

I tried to set the `description: null` or `description: '' ` in the `config.js`. However, a new string "Welcome to your VuePress site" would appear. How can I remove the...

xxx: 您好,非常抱歉,过了这么久才来回复。感谢您的关注。造成你疑问的原因是我没有写清楚。 这里的逻辑是这样的: 首先需要两个Policy的原因是: 在PPO算法中我们想要把On-Policy的训练变成Off-Policy, 因此有了两个Policy。这样做的目的是加快训练过程。这两个Policy网络的不同之处就是网络的参数(权制,偏置)不同, Old_Policy的参数会滞后Policy一段时间。 与环境交互的应该是Old_Policy(**我之前写错了**,已更新), 它产生的数据用来训练Policy; 训练好多次Plocy之后(体现在`2_airl.py`里面的`if episode % 4 == 0`), 然后再使用`PPO.assign_policy_parameters()`这一行 https://github.com/HuangJiaLian/AIRL_MountainCar/blob/ec707eff422ae7263bcf22ab72d03c13960523a8/2_airl.py#L224 来将更新后Policy参数存到Old_Policy网络里面。 关于PPO算法,具体我主要参考的是台大李宏毅老师的[视频](https://www.youtube.com/watch?v=OAKAZhFmYoI) 真的很感谢您的提问,这帮助我很多。 阿梁 2021.9.22 ------------------ 原始邮件 ------------------ 发件人: "***" ; 发送时间: 2021年8月30日(星期一)...