ShiqiWang

Results 27 comments of ShiqiWang

请问actor-critic是off-policy吗

总结的非常棒!超级有帮助!!谢谢博主!!!ღ( ´・ᴗ・` )比心

谢谢博主,非常有帮助!

总结的超级好,谢谢博主!

代码部分我有一个小小的疑问:为什么actor的输出(即输入state,产生action的概率)要命名为dist呀?是distance的简写吗?

> @CSU-FulChou > 我理解成是动作的分布,所以是distribution的意思 > > > > 发自我的iPhone > > > ------------------ Original ------------------ > From: Strawberry47 ***@***.***> > Date: Thu,Nov 11,2021 4:00 PM > To: datawhalechina/easy-rl ***@***.***> >...

啊,代码部分我还有一个critic_loss计算问题:是Q_value(old)-critic_value(new),这样算的吗?不知道理解的对不对~