Yihao Kai comments

Repositories
Issues
Comments

Results 1 comments of


                                            Yihao Kai

/chapter4/chapter4

在REINFORCE:MONTE Carlo Policy Gradient中“类似地，policy gradient 预测每一个状态下面应该要输出的这个行动的概率，就是输入状态 st ，然后输出动作的概率，比如 0.02，0.08，0.09。实际上输出给环境的动作是随机选了一个动作，比如说我选了右这个动作，它的 one-hot 向量就是 0，0，1。” 0.09应为0.9。