example_of_reinforcement_lreaning_by_pytorch icon indicating copy to clipboard operation
example_of_reinforcement_lreaning_by_pytorch copied to clipboard

一些利用pytorch编程实现的强化学习例子

Results 1 example_of_reinforcement_lreaning_by_pytorch issues
Sort by recently updated
recently updated
newest added

博主您好,近来我也学习了莫烦的强化学习课程并改写了tf的代码为torch。 近期参考了您的代码,但有一点小疑问。在计算td_error的时候,为什么q_v = self.Critic_eval(bs,ba)中的输入是ba而不是从actor-eval中输出的action,然后这两个action有什么区别呢? 代码如下: ``` a_ = self.Actor_target(bs_) # 这个网络不及时更新参数, 用于预测 Critic 的 Q_target 中的 action q_ = self.Critic_target(bs_,a_) # 这个网络不及时更新参数, 用于给出 Actor 更新参数时的 Gradient ascent 强度 q_target =...