shendusuipian
shendusuipian copied to clipboard
如何得到强化学习中R1,R2..Rn 值
问题: 如视频中例子直升机,绕了二圈,坠机就给一个很大的负分值,成功就给一个很大的正分值。这个评分值(Reward)是所有R1,R2..Rn的累加。 我的问题是: 1) R1,R2..Rn的值是如何得到? 2)A1,A2..An 如何得到,是随机输入吗?
视频: https://www.bilibili.com/video/av22165205/?p=5
在视频一开始就讲到了这一点。A 是agent's action, 由agent生成;R是由Environment生成
非常感谢回复! 还是有点不理解: 1) 如果以直升机打转为例, 不知能否举例说明一下环境产生的observation 和 Rn 相对应直升机打转这个过程的哪里行为? 2)如果编写程序,R1..Rn的值是不是初始值随机给,然后通过最后的Reward(坠机或成功)来反向调整这些个R1..Rn的值?
关于问题1,针对这个例子,无法再举例了,需要有更详细的例子来对比讲解; 关于问题2, Env生成的Rewards都不是随机的,但Rewards 值被生成,参数调整在”大脑“也就是模型参数中发生