ayton_Zhang issues

Repositories
Issues
Comments

Results 1 issues of


                                            ayton_Zhang

关于q lambda的问题

作者您好，再q lambda的实现代码中，我想问一下如果episode是terminated的话，那么它的exp_return应该是零，但是terminated状态的reward是不是应该考虑进去？我不太理解这步的操作：reward = rewards[:, t] + exp_qvals[:, t] - qvals[:, t] #off-policy correction，有什么理论依据吗