shendusuipian 如何得到强化学习中R1,R2..Rn 值

如何得到强化学习中R1,R2..Rn 值

Open alephman opened this issue 6 years ago • 3 comments

问题：如视频中例子直升机，绕了二圈，坠机就给一个很大的负分值，成功就给一个很大的正分值。这个评分值(Reward)是所有R1,R2..Rn的累加。我的问题是： 1） R1,R2..Rn的值是如何得到？ 2）A1，A2..An 如何得到，是随机输入吗？

视频： https://www.bilibili.com/video/av22165205/?p=5

Sep 07 '18 14:09 alephman

在视频一开始就讲到了这一点。A 是agent's action, 由agent生成；R是由Environment生成

Sep 10 '18 01:09 EmbraceLife

非常感谢回复！还是有点不理解： 1）如果以直升机打转为例，不知能否举例说明一下环境产生的observation 和 Rn 相对应直升机打转这个过程的哪里行为？ 2）如果编写程序，R1..Rn的值是不是初始值随机给，然后通过最后的Reward(坠机或成功）来反向调整这些个R1..Rn的值？

Sep 11 '18 13:09 alephman

关于问题1，针对这个例子，无法再举例了，需要有更详细的例子来对比讲解；关于问题2， Env生成的Rewards都不是随机的，但Rewards 值被生成，参数调整在”大脑“也就是模型参数中发生

Sep 22 '18 13:09 EmbraceLife