DRL icon indicating copy to clipboard operation
DRL copied to clipboard

第五章SARSA算法描述是否有误

Open txsniper opened this issue 2 years ago • 3 comments

SARSA 训练流程: 4. 根据当前策略做抽样: a˜t+1 ∼ πnow( · j st+1)。注意, a˜t+1 只是假想的动作,智能体 不予执行

看其他资料 SARSA算法在本次迭代后,会用 a˜t+1 更新 a(也就是说下一步一定会在s˜t+1 执行a˜t+1): s = s˜t+1 a = a˜t+1

txsniper avatar Jul 19 '22 00:07 txsniper

不对的。策略随时会更新,不能保证 t+1 时刻的动作是a˜t+1

wangshusen avatar Jul 19 '22 03:07 wangshusen

每次迭代的最后一步就是给s和a赋值;相反,Q-learning才是下一次动作需要重新采样确定的 v2-a7c02634548471ab0fd9df11c2597bda_1440w

实现代码中的写法也是这样 https://hrl.boyuai.com/chapter/1/%E6%97%B6%E5%BA%8F%E5%B7%AE%E5%88%86%E7%AE%97%E6%B3%95#53-sarsa-%E7%AE%97%E6%B3%95

txsniper avatar Jul 19 '22 15:07 txsniper

他们这种写法真的不严谨。。。需要假设policy不变,才能像他们这样实现

wangshusen avatar Jul 24 '22 03:07 wangshusen