txsniper
Results
1
comments of
txsniper
每次迭代的最后一步就是给s和a赋值;相反,Q-learning才是下一次动作需要重新采样确定的  实现代码中的写法也是这样 https://hrl.boyuai.com/chapter/1/%E6%97%B6%E5%BA%8F%E5%B7%AE%E5%88%86%E7%AE%97%E6%B3%95#53-sarsa-%E7%AE%97%E6%B3%95