johnjim0816 comments

Results 51 comments of


                                            johnjim0816

可以新增PPO continuous 版本么

> 同求PPO continuous版本感谢~ 目前ppo版本已经上线，但是需要调参，本身算法没有问题

/chapter12/chapter12

> 作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的感谢提醒，其实这个参数可衰减可不衰减，根据调参需求来，跟dqn中e-greedy策略的e一样，注释可能没写清楚

notebook中MC算法的结论（图）与书/电子版中不一致

> 作为书中第一个上手项目，结论与书中不一致是不是很confusing > > 是不是因为用了FirstVisitMC 具体是什么不一致哇

连续动作空间的PPO算法

> 目前还在学习的初级阶段，作者提供的代码结构很美观，向通过离散PPO修改成连续PPO遇到困难，请问有没有连续PPO样例，可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别，加深理解有的，先关注这个吧：https://github.com/datawhalechina/joyrl 近期会放上去，目前优先开发这个，后面会同步到easyrl

> 目前还在学习的初级阶段，作者提供的代码结构很美观，向通过离散PPO修改成连续PPO遇到困难，请问有没有连续PPO样例，可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别，加深理解请移步：https://github.com/datawhalechina/joyrl-book/blob/main/notebooks/%E7%AC%AC12%E7%AB%A0_PPO_Pendulum-v1.ipynb

PPO算法的实现, 为啥要给概率取对数?

> 我理解是为了将除法操作转换为减法操作吧是的

对于控制流算子的支持

> 1. switch_case 一般可以用 if 替代，你可以上传一个简单模型，我们排期支持下 > 2. 存在控制流算子 (if / while) 时，都会产生子图 > 3. 这个你可以把各分支分别导出 pb 并转 mnn 模型来实现。不过建议还是换成 if ，加载1个mnn比较方便 if else在推理的时候不会很慢吗，如果是一定批量输入的话

对于控制流算子的支持

> 批量输入建议不要用控制流的方式实现，可以用 select 类似的算子替代那如果是MoE这类网络呢，有什么比较好的方式，select 类似的算子在MoE场景中似乎也会回到tf.case的问题上

easy-rl

蘑菇书代码更新大版本，主要包括： 1. 补充对应的中文伪代码 2. 修缮代码，使其更具集成性、可读性以及规范性 3. 增加notebook版本代码

easy-rl

蘑菇书代码更新： 1、更新算法模版 2、增加PER DQN算法