johnjim0816

Results 51 comments of johnjim0816

> 同求PPO continuous版本 感谢~ 目前ppo版本已经上线,但是需要调参,本身算法没有问题

> 作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的 感谢提醒,其实这个参数可衰减可不衰减,根据调参需求来,跟dqn中e-greedy策略的e一样,注释可能没写清楚

> 作为书中第一个上手项目,结论与书中不一致是不是很confusing > > 是不是因为用了FirstVisitMC 具体是什么不一致哇

> 目前还在学习的初级阶段,作者提供的代码结构很美观,向通过离散PPO修改成连续PPO遇到困难,请问有没有连续PPO样例,可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别,加深理解 有的,先关注这个吧:https://github.com/datawhalechina/joyrl 近期会放上去,目前优先开发这个,后面会同步到easyrl

> 目前还在学习的初级阶段,作者提供的代码结构很美观,向通过离散PPO修改成连续PPO遇到困难,请问有没有连续PPO样例,可以更直观的比较连续动作空间和离散动作空间在动做选择以及PPO算法上的区别,加深理解 请移步:https://github.com/datawhalechina/joyrl-book/blob/main/notebooks/%E7%AC%AC12%E7%AB%A0_PPO_Pendulum-v1.ipynb

> 我理解是为了将除法操作转换为减法操作吧 是的

> 1. switch_case 一般可以用 if 替代,你可以上传一个简单模型,我们排期支持下 > 2. 存在控制流算子 (if / while) 时,都会产生子图 > 3. 这个你可以把各分支分别导出 pb 并转 mnn 模型来实现。不过建议还是换成 if ,加载1个mnn比较方便 if else在推理的时候不会很慢吗,如果是一定批量输入的话

> 批量输入建议不要用控制流的方式实现,可以用 select 类似的算子替代 那如果是MoE这类网络呢,有什么比较好的方式,select 类似的算子在MoE场景中似乎也会回到tf.case的问题上

蘑菇书代码更新大版本,主要包括: 1. 补充对应的中文伪代码 2. 修缮代码,使其更具集成性、可读性以及规范性 3. 增加notebook版本代码

蘑菇书代码更新: 1、更新算法模版 2、增加PER DQN算法