DRL-code-pytorch icon indicating copy to clipboard operation
DRL-code-pytorch copied to clipboard

Concise pytorch implements of DRL algorithms, including REINFORCE, A2C, DQN, PPO(discrete and continuous), DDPG, TD3, SAC.

Results 15 DRL-code-pytorch issues
Sort by recently updated
recently updated
newest added

Hello, would like to ask, how to do visualization.

使用此处的PPO代码,训练时总是发现critic loss不断增长,甚至会增长到1e18的数量级; 经比较其他地方的PPO代码,怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value, 因此导致值估计越推越高; 将代码改为在replay buffer中存入记录的同时存入state的值估计,而不是在计算target_value时计算state的值估计, critic loss无限增长的问题得到解决。

大佬您好!请问下我可以使用PPO的相关代码到其他应用场景中吗?环境文件是我自己编写好的,但是不使用Gym中的环境。以及您觉得这样做的可行性大吗? 目前我的想法有两个,一个是在Gym中再添加一个我的环境,另一个是不使用Gym,但是这样会面临代码中很多地方不兼容的问题。非常期待您的回复,感激不尽!

大佬你好,我想请教一下,TD3中的延迟策略更新部分,涉及到参数冻结,我感觉把这两个冻结和解冻操作去除好像也不会影响代码,因为中间没有涉及到对Critic网络的更新操作。 代码: ```Python # Trick 3:delayed policy updates 延迟策略更新 if self.actor_pointer % self.policy_freq == 0: # Freeze critic networks so you don't waste computational effort #冻结部分********************************************************************************* for params in self.critic.parameters():...

对于布尔类型的命令行参数,使用type=bool 是不合适的,因为 argparse 会将所有非空字符串解释为 True

![H7ICDN2UGN8IX9J)O__%GDG](https://user-images.githubusercontent.com/27750891/219247941-3672cddc-3786-4acc-aae5-b46e7bf69a9a.png)

您好!请教一个问题。请问在程序SAC-continuous.py中,您把log_std限制在[-20,2]之间`log_std = torch.clamp(log_std, -20, 2)`。请问这样做的意义是什么?-20和2是怎么来的?非常感谢!

希望作者补上模型保存和应用的代码