ayton_Zhang

Results 1 issues of ayton_Zhang

作者您好,再q lambda的实现代码中,我想问一下如果episode是terminated的话,那么它的exp_return应该是零,但是terminated状态的reward是不是应该考虑进去? 我不太理解这步的操作:reward = rewards[:, t] + exp_qvals[:, t] - qvals[:, t] #off-policy correction,有什么理论依据吗