haduoken

Results 12 comments of haduoken

你这个流程完全等同于 1. policy 生成数据 2. policy 迭代更新 3. loop

感谢回复,你的观点我认同,old Policy确实可以用于计算KL散度,让模型本次更新不至于过大 另外当我知道PPO绕了一大圈,最后跟我说另外个分布就是上次的分布时,我是真的想掀桌子 整个PPO完全就是工程化的时候,看到for循环迭代缺少个阻尼项,而做的尝试。实际写出的论文却如此晦涩

嗯,是的。如果从TRPO出发,PPO的改进是成功的 再次感谢你的回答,我后续会看下OpenAI的版本

我记得你们在openmmlab的开放麦有一期,很开心地分享了你们推出的新版本,进行了很多重构,而我用的就行最新版

一样的问题,仓库没人维护了么? ![image](https://github.com/open-mmlab/mmdetection3d/assets/20755758/8d1e38a6-6eae-46de-8baf-fec017745378)

@YJJ1125 @hitbuyi 解决啦,这个颜色需要[3,1]shape的tensor,把bbox_color[i]改成bbox_color即可。 ![image](https://github.com/open-mmlab/mmdetection3d/assets/20755758/eb899da9-8c22-4961-9edb-84ed51474ebc) ![image](https://github.com/open-mmlab/mmdetection3d/assets/20755758/423a2d94-5829-480d-98f0-f9cd5f6f02c2)

@YJJ1125 另外建议把/255也去掉,估计作者本意是画个绿色框 ![image](https://github.com/open-mmlab/mmdetection3d/assets/20755758/f03469c8-f7a9-48c0-8061-7289933d39fa) ![image](https://github.com/open-mmlab/mmdetection3d/assets/20755758/b4783915-ad55-45a0-a9b4-1230016c9c91)

local grad is exp(x), so we use out.data, not self.data @younes-io