rl-tutorials
rl-tutorials copied to clipboard
损失函数
十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?
十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?
接着这层楼说一下,笔者最近忙于出强化学习的书回复和修正要晚点(
十分感谢作者的分享,我有一个疑惑就是按理在更新中,每一个episode都只会输出一个损失函数,但实际上每次都会出来很多个损失函数,画图的看的话回合数只有200,但是损失函数甚至上万个,这是什么原因?
我理解你指的应该是损失计算,是这样的,每次从replaybuffer里面提取一个批量的样本就需要计算一次损失做梯度更新,跟回合数关系其实不大