叶怀生
Results
1
comments of
叶怀生
``` Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。 ``` 您好,该句后半段 **“它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”**,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。 不知道我的理解是否正确,编者请参考一下。