Reinforcement-learning-with-tensorflow ppo中出现NAN

ppo中出现NAN

Open xxx-007 opened this issue 4 years ago • 2 comments

你好，莫烦老师，我在运行simple_ppo算法中，，根据当前状态选择一个动作 a=self.sess.run(self.sample_op,{self.tfs:s})[0]，，选择出来的动作为nan，，我应该如何修改，才能在运行代码过程中不在出现nan值，

Nov 09 '20 07:11 xxx-007

init 函数中下面这行代码应该在分母加上epsilon，防止出现nan ratio = self.pi.prob(self.tfa) / self.old_pi.prob(self.tfa) 也就是改为如下代码 ratio = self.pi.prob(self.tfa) / (self.old_pi.prob(self.tfa)+EPS)

采取这个建议，修改之后仍然出现nan

Nov 09 '20 07:11 xxx-007

请问你最终解决这个问题了吗？

Mar 08 '24 04:03 wagh311

Reinforcement-learning-with-tensorflow Reinforcement-learning-with-tensorflow copied to clipboard

ppo中出现NAN

Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard