easy-rl /chapter4/chapter4_questions&keywords

/chapter4/chapter4_questions&keywords

Open qiwang067 opened this issue 3 years ago • 8 comments

https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4_questions&keywords

Description

May 24 '21 01:05 qiwang067

$\text { 因此 } \nabla \mathrm{p}{\theta}(\tau)=\nabla \log \mathrm{p}{\theta}\left(\mathrm{a}{\mathrm{t}}^{\mathrm{n}} \mid \mathrm{s}{\mathrm{t}}^{\mathrm{n}}\right)$

是不是写错了？

Aug 06 '21 12:08 Sunnyzhr

谢谢你的留言，应该是没有写错的，具体的公式推导可见教程 “第四章策略梯度”。

Aug 07 '21 05:08 yyysjz1997

谢谢博主 Thanks♪(･ω･)ﾉ

Nov 10 '21 06:11 Strawberry47

keywords里的“Reinforce”是不是写成全大写的“REINFORCE”更好些。与之前的笔记更衔接些。

Dec 16 '21 10:12 SaleJuice

是的是的，这里的REINFORCE表示一种基于策略梯度并使用回合更新的强化学习的经典算法，应该区别于Reinforce，谢谢你的建议，已经改正～

Dec 17 '21 08:12 yyysjz1997

Policy Gradient

Mar 04 '23 10:03 SCurry-30

就我觉得符号体系混乱吗？策略一会是p 一会是π,并且和前三章体系也不同，

Jun 27 '23 06:06 chensisi0730

就我觉得符号体系混乱吗？策略一会是p 一会是π,并且和前三章体系也不同，

用 p 来表示策略是为了方便读者理解，后续会考虑统一符号（加上对应注解）；关于体系的问题，其实是从不同的角度来讲解知识，后面会考虑统一风格

Jun 28 '23 06:06 qiwang067

easy-rl easy-rl copied to clipboard

/chapter4/chapter4_questions&keywords

easy-rl
easy-rl copied to clipboard