reinforcement-learning
reinforcement-learning copied to clipboard

Published 20 hours ago •

TheoLvs

→

Metadata

Personal experiments on Reinforcement Learning

Reame
Issues

Results 1 reinforcement-learning issues

Sort by recently updated

Wrong max of next state action?

In QAgent train(), there is `self.Q[s,a] = self.Q[s,a] + self.lr * (r + self.gamma*np.max(self.Q[s_next,a]) - self.Q[s,a])` but should be imho `self.Q[s,a] = self.Q[s,a] + self.lr * (r + self.gamma*np.max(self.Q[s_next,:]) -...

NMO13

← Metadata

100

Stars

Forks

Watchers

Owner

TheoLvs

Metadata

Personal experiments on Reinforcement Learning

Back

reinforcement-learning reinforcement-learning copied to clipboard

Metadata

Wrong max of next state action?

← Metadata

Owner

Metadata

reinforcement-learning
reinforcement-learning copied to clipboard