ouye comments

Results 2 comments of


                                            ouye

您上面的回答有提到引入强化学习优化模型效果，强化学习通过环境-用户-奖励-环境的交互，优化用户交互序列的总体奖励值来优化模型，文中的loss是一个统一给出的结果，没有具体的时间步划分，那么这样如何把强化学习的目标反馈到loss下降呢？

I will be grateful to you