haduoken
haduoken
你这个流程完全等同于 1. policy 生成数据 2. policy 迭代更新 3. loop
感谢回复,你的观点我认同,old Policy确实可以用于计算KL散度,让模型本次更新不至于过大 另外当我知道PPO绕了一大圈,最后跟我说另外个分布就是上次的分布时,我是真的想掀桌子 整个PPO完全就是工程化的时候,看到for循环迭代缺少个阻尼项,而做的尝试。实际写出的论文却如此晦涩
嗯,是的。如果从TRPO出发,PPO的改进是成功的 再次感谢你的回答,我后续会看下OpenAI的版本
我记得你们在openmmlab的开放麦有一期,很开心地分享了你们推出的新版本,进行了很多重构,而我用的就行最新版
same issue in 20.04
@heuristicus @haianos @roversch @damb
一样的问题,仓库没人维护了么? 
@YJJ1125 @hitbuyi 解决啦,这个颜色需要[3,1]shape的tensor,把bbox_color[i]改成bbox_color即可。  
@YJJ1125 另外建议把/255也去掉,估计作者本意是画个绿色框  
local grad is exp(x), so we use out.data, not self.data @younes-io