reinforcement-learning Wrong max of next state action?

Wrong max of next state action?

Open NMO13 opened this issue 10 months ago • 0 comments

In QAgent train(), there is

self.Q[s,a] = self.Q[s,a] + self.lr * (r + self.gamma*np.max(self.Q[s_next,a]) - self.Q[s,a])

but should be imho

self.Q[s,a] = self.Q[s,a] + self.lr * (r + self.gamma*np.max(self.Q[s_next,:]) - self.Q[s,a])

Apr 09 '24 17:04 NMO13