Velimice

Results 7 comments of Velimice

在markdown文件里面加 下载作者仓库_posts里的markdown文件,打开就知道了!!!

哈哈哈,发现它不显示出来 < ! - - more - - > 要删除空格

> @GrangerZyj > 我想问一下,采用Basline形式的更新,如果(R-B)为负值,Loss也为负数了吧,这种情况下怎么更新网络 负值就说明相应的action不好,需要降低其概率,即pi(a|s)变小;如果是正值,就说明执行这个action是好的,要增加其概率。直观上是这么理解,回到数学公式推导上,使用梯度上升方法更新网络参数,也会得到这个结果的。 你大概是还没搞清楚为什么要使用baseline吧,再看看原文的解释吧,或者自己想想R-B是正值或负值时梯度上升的具体过程是怎么样的(R-B的正负影响梯度的正负),做完应该会豁然开朗。

要在主题目录的_config.yml写才生效