Yihao Kai
Results
1
comments of
Yihao Kai
在REINFORCE:MONTE Carlo Policy Gradient中“类似地,policy gradient 预测每一个状态下面应该要输出的这个行动的概率,就是输入状态 st ,然后输出动作的概率,比如 0.02,0.08,0.09。实际上输出给环境的动作是随机选了一个动作,比如说我选了右这个动作,它的 one-hot 向量就是 0,0,1。” 0.09应为0.9。