xxx-007
Results
2
comments of
xxx-007
I get nan actions too
init 函数中下面这行代码应该在分母加上epsilon,防止出现nan ratio = self.pi.prob(self.tfa) / self.old_pi.prob(self.tfa) 也就是改为如下代码 ratio = self.pi.prob(self.tfa) / (self.old_pi.prob(self.tfa)+EPS) 采取这个建议,修改之后仍然出现nan