ouye

Results 2 comments of ouye

您上面的回答有提到引入强化学习优化模型效果,强化学习通过环境-用户-奖励-环境的交互,优化用户交互序列的总体奖励值来优化模型,文中的loss是一个统一给出的结果,没有具体的时间步划分,那么这样如何把强化学习的目标反馈到loss下降呢?

I will be grateful to you