Kai Li comments

Results 27 comments of


                                            Kai Li

对前两章基础部分内容的读后反馈

我觉得恰恰相反，我觉得作者前两章写的很好，看得出来是经过静心思考的，特别是作者一直强调什么是随机变量，什么是观测值，而且文中所有公式都将两者进行显式区分，还有期望那部分，到底是对谁求期望，到底哪些东西是随机的，哪些是确定的，我觉得写的很好，这些其实在RL paper里都没有特别区分，好多公式直接就是一个期望的符号，新手根本不知道对谁求期望，容易产生疑惑。

![2](https://user-images.githubusercontent.com/13194870/113281825-a748db00-9318-11eb-9c22-1f3b7a08a0a9.png) 按照前面的推导，感觉Q_phi(s,a)应该指的是策略theta的Q值那么就相当于用theta_now的策略产生的样本估计theta的Q值了，这又相当于一个近似。可以这么做的原因应该是theta_now和theta差异比较小吧。如果我理解的正确，希望王老师可以把这部分再详细说一下，否则容易引起误导。

TRPO中的一个小问题

> 方便告诉我你的姓名吗？我在书里感谢一下你。王老师，我是中科院自动化所的李凯，您这本书写的非常好，希望不断完善，可以作为国内学习RL的学生的必备书籍。

TRPO中的一个小问题

> 多谢！你非常厉害！找到了我从来没想到的问题。王老师客气了，您的教学风格和写作风格我特别喜欢，能把复杂的问题简单化，很了不起，RL界的一股清流。

`is_training` for Batch Normalization in gluon

@patriciaaa82 @jonbakerfish I think you may find the answer here https://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-dropout-gluon.html#Accessing-is_training()-status

How can I detection many people?

@DuinoDu @JianjinChen 您好，您这个python的版本和作者公布的matlab 版本结果差别大吗？

Kai Li

楷体无法加粗问题

对前两章基础部分内容的读后反馈

TRPO中的一个小问题

TRPO中的一个小问题

TRPO中的一个小问题

`is_training` for Batch Normalization in gluon

How can I detection many people?