Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard
DQN的代码中,计算q_target时未考虑done为true的情况
请问Morvan, DQN的代码中,计算q_target时,是否未考虑done为True的情况,即q_target = Reward? 存储在Replay memory中的经验也未包含done。请问为什么呢?
请问有想到怎么考虑done=True的情况吗,如果在memory里存储经验包含done,那怎么解决随机取batch_size得到两个及以上done的情况?