DRL-code-pytorch
DRL-code-pytorch copied to clipboard
Concise pytorch implements of DRL algorithms, including REINFORCE, A2C, DQN, PPO(discrete and continuous), DDPG, TD3, SAC.
Hello, would like to ask, how to do visualization.
使用此处的PPO代码,训练时总是发现critic loss不断增长,甚至会增长到1e18的数量级; 经比较其他地方的PPO代码,怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value, 因此导致值估计越推越高; 将代码改为在replay buffer中存入记录的同时存入state的值估计,而不是在计算target_value时计算state的值估计, critic loss无限增长的问题得到解决。
大佬您好!请问下我可以使用PPO的相关代码到其他应用场景中吗?环境文件是我自己编写好的,但是不使用Gym中的环境。以及您觉得这样做的可行性大吗? 目前我的想法有两个,一个是在Gym中再添加一个我的环境,另一个是不使用Gym,但是这样会面临代码中很多地方不兼容的问题。非常期待您的回复,感激不尽!
大佬你好,我想请教一下,TD3中的延迟策略更新部分,涉及到参数冻结,我感觉把这两个冻结和解冻操作去除好像也不会影响代码,因为中间没有涉及到对Critic网络的更新操作。 代码: ```Python # Trick 3:delayed policy updates 延迟策略更新 if self.actor_pointer % self.policy_freq == 0: # Freeze critic networks so you don't waste computational effort #冻结部分********************************************************************************* for params in self.critic.parameters():...
对于布尔类型的命令行参数,使用type=bool 是不合适的,因为 argparse 会将所有非空字符串解释为 True

您好!请教一个问题。请问在程序SAC-continuous.py中,您把log_std限制在[-20,2]之间`log_std = torch.clamp(log_std, -20, 2)`。请问这样做的意义是什么?-20和2是怎么来的?非常感谢!
希望作者补上模型保存和应用的代码