easy-rl icon indicating copy to clipboard operation
easy-rl copied to clipboard

/chapter4/chapter4_questions&keywords

Open qiwang067 opened this issue 3 years ago • 8 comments

https://datawhalechina.github.io/easy-rl/#/chapter4/chapter4_questions&keywords

Description

qiwang067 avatar May 24 '21 01:05 qiwang067

$\text { 因此 } \nabla \mathrm{p}{\theta}(\tau)=\nabla \log \mathrm{p}{\theta}\left(\mathrm{a}{\mathrm{t}}^{\mathrm{n}} \mid \mathrm{s}{\mathrm{t}}^{\mathrm{n}}\right)$

是不是写错了?

Sunnyzhr avatar Aug 06 '21 12:08 Sunnyzhr

谢谢你的留言,应该是没有写错的,具体的公式推导可见教程 “第四章 策略梯度”。

yyysjz1997 avatar Aug 07 '21 05:08 yyysjz1997

谢谢博主 Thanks♪(・ω・)ノ

Strawberry47 avatar Nov 10 '21 06:11 Strawberry47

keywords里的“Reinforce”是不是写成全大写的“REINFORCE”更好些。与之前的笔记更衔接些。

SaleJuice avatar Dec 16 '21 10:12 SaleJuice

是的是的,这里的REINFORCE表示一种基于策略梯度并使用回合更新的强化学习的经典算法,应该区别于Reinforce,谢谢你的建议,已经改正~

yyysjz1997 avatar Dec 17 '21 08:12 yyysjz1997

Policy Gradient

SCurry-30 avatar Mar 04 '23 10:03 SCurry-30

就我觉得符号体系混乱吗?策略一会是p 一会是π,并且和前三章体系也不同,

chensisi0730 avatar Jun 27 '23 06:06 chensisi0730

就我觉得符号体系混乱吗?策略一会是p 一会是π,并且和前三章体系也不同,

用 p 来表示策略是为了方便读者理解,后续会考虑统一符号(加上对应注解); 关于体系的问题,其实是从不同的角度来讲解知识,后面会考虑统一风格

qiwang067 avatar Jun 28 '23 06:06 qiwang067