DRL 第五章SARSA算法描述是否有误

第五章SARSA算法描述是否有误

Open txsniper opened this issue 2 years ago • 3 comments

SARSA 训练流程： 4. 根据当前策略做抽样： a˜t+1 ∼ πnow( · j st+1)。注意， a˜t+1 只是假想的动作，智能体不予执行

看其他资料 SARSA算法在本次迭代后，会用 a˜t+1 更新 a（也就是说下一步一定会在s˜t+1 执行a˜t+1）： s = s˜t+1 a = a˜t+1

Jul 19 '22 00:07 txsniper

不对的。策略随时会更新，不能保证 t+1 时刻的动作是a˜t+1

Jul 19 '22 03:07 wangshusen

每次迭代的最后一步就是给s和a赋值；相反，Q-learning才是下一次动作需要重新采样确定的 v2-a7c02634548471ab0fd9df11c2597bda_1440w

实现代码中的写法也是这样 https://hrl.boyuai.com/chapter/1/%E6%97%B6%E5%BA%8F%E5%B7%AE%E5%88%86%E7%AE%97%E6%B3%95#53-sarsa-%E7%AE%97%E6%B3%95

Jul 19 '22 15:07 txsniper

他们这种写法真的不严谨。。。需要假设policy不变，才能像他们这样实现

Jul 24 '22 03:07 wangshusen