WeiqingAi

Results 3 comments of WeiqingAi

> @wendyzhang1114 > `Q[i][a] = (1 - lr) * Q[i][a] + lr * (reward + factor * np.amax(Q_next[i]))` > 这应该时DQN的更新Q_TARGET的方法,而不是DDQN。文中写了DDQN有点歧义,希望可以把两种算法更新Q_target的方法都写一下。 确实不是DDQN,只是DQN。

我遇到了相同的问题,主要是pandas的int64index数学类型没法用于索引行数,bug出在 self.t.loc[s,a] = tuple(s)这句上。

问题已经解决,主要出在loc[element1, element2]上,element1需要整形或者标签(字符型),而源代码定义的是一个元组,因此在用loc进行切片时会出现index数据不匹配的错误。部分代码修改为: (1)在self.observation_space = [tuple(s) for s in np.argwhere(self.map == 0)]下增加一行: self.observation_space_str = [str(tuple(s)) for s in np.argwhere(self.map == 0)] (2)dataframe修改为self.t = pd.DataFrame(data=None, index=self.observation_space_str, columns=self.action_space) (3) 在n_s = np.array(s) +...