DRL icon indicating copy to clipboard operation
DRL copied to clipboard

4.3.1算法推导的第一个公式

Open wangchuan opened this issue 4 years ago • 3 comments

4.3.1 算法推导的有关Ut的公式,是我理解的有问题吗?后半部分k = t+1的时候,gamma的指数是t+1-t = 1, 但前面Sum符号外还有个gamma,那就是gamma^2了,但是本来应该只是gamma的吧?

wangchuan avatar Mar 28 '21 17:03 wangchuan

是我写错了,我修改一下。请问你的姓名是?我在致谢里面感谢一下你。

wangshusen avatar Mar 28 '21 18:03 wangshusen

求能在这里给一下正确的表达式吗,我看到这里被卡住了。我的名字不重要哈~~~

wangchuan avatar Mar 29 '21 05:03 wangchuan

应该是把gamma的指数改成 k-t-1。

回忆一下回报的定义:$U_t = \sum_{k=t}^n \gamma^{k-t} \cdot R_k$,$U_{t+1} = \sum_{k=t+1}^n \gamma^{k-t-1} \cdot R_k$。 由这个定义可得: \begin{equation*} U_t \; = \; R_t + \gamma \cdot \underbrace{ \sum_{k=t+1}^n \gamma^{k-t-1} \cdot R_k }_{ = \; U_{t+1} }. \end{equation*} 回忆一下,最优动作价值函数可以写成 \begin{equation*} Q_\star \big(s_t , a_t \big) \; = \; \max_{\pi } \; \EB \Big[ U_t \, \Big| \, S_t = s_t , A_t = a_t \Big] . \end{equation*}

wangshusen avatar Mar 29 '21 12:03 wangshusen