Results 1 comments of txsniper

每次迭代的最后一步就是给s和a赋值;相反,Q-learning才是下一次动作需要重新采样确定的 ![v2-a7c02634548471ab0fd9df11c2597bda_1440w](https://user-images.githubusercontent.com/4602017/179797223-d0fc1658-6504-4a8a-afff-10805b63b085.jpg) 实现代码中的写法也是这样 https://hrl.boyuai.com/chapter/1/%E6%97%B6%E5%BA%8F%E5%B7%AE%E5%88%86%E7%AE%97%E6%B3%95#53-sarsa-%E7%AE%97%E6%B3%95