rl-tutorials icon indicating copy to clipboard operation
rl-tutorials copied to clipboard

损失函数

Open jackyroad opened this issue 3 years ago • 1 comments

十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?

jackyroad avatar Dec 27 '21 12:12 jackyroad

十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?

接着这层楼说一下,笔者最近忙于出强化学习的书回复和修正要晚点(

johnjim0816 avatar Feb 25 '22 09:02 johnjim0816

十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?

我理解你指的应该是损失计算,是这样的,每次从replaybuffer里面提取一个批量的样本就需要计算一次损失做梯度更新,跟回合数关系其实不大

johnjim0816 avatar Nov 15 '22 08:11 johnjim0816