DRL-code-pytorch issues

visualization

Hello, would like to ask, how to do visualization.

使用此处的PPO代码，训练时总是发现critic loss不断增长，甚至会增长到1e18的数量级；经比较其他地方的PPO代码，怀疑是此处的PPO代码在计算target_value时使用了当前的critic网络来计算batch中state的value，因此导致值估计越推越高；将代码改为在replay buffer中存入记录的同时存入state的值估计，而不是在计算target_value时计算state的值估计， critic loss无限增长的问题得到解决。

BroOfBallSis

不同环境的使用问题

2

大佬您好！请问下我可以使用PPO的相关代码到其他应用场景中吗？环境文件是我自己编写好的，但是不使用Gym中的环境。以及您觉得这样做的可行性大吗？目前我的想法有两个，一个是在Gym中再添加一个我的环境，另一个是不使用Gym，但是这样会面临代码中很多地方不兼容的问题。非常期待您的回复，感激不尽！

Sliver98

TD3中learn()函数部分的参数冻结问题

大佬你好，我想请教一下，TD3中的延迟策略更新部分，涉及到参数冻结，我感觉把这两个冻结和解冻操作去除好像也不会影响代码，因为中间没有涉及到对Critic网络的更新操作。代码： ```Python # Trick 3:delayed policy updates 延迟策略更新 if self.actor_pointer % self.policy_freq == 0: # Freeze critic networks so you don't waste computational effort #冻结部分********************************************************************************* for params in self.critic.parameters():...

Cassini-Titan

PPO discrete的 trick开关错误

对于布尔类型的命令行参数，使用type=bool 是不合适的，因为 argparse 会将所有非空字符串解释为 True

BabelTower

训练的Humanoid-v2，好像效果也没有那么好

1

![H7ICDN2UGN8IX9J)O__%GDG](https://user-images.githubusercontent.com/27750891/219247941-3672cddc-3786-4acc-aae5-b46e7bf69a9a.png)

Aruen24

DRL-code-pytorch
DRL-code-pytorch copied to clipboard

Metadata

visualization

PPO代码存在critic loss无限增长的问题

不同环境的使用问题

TD3中learn()函数部分的参数冻结问题

PPO discrete的 trick开关错误

训练的Humanoid-v2，好像效果也没有那么好

SAC-continuous.py中的log_std

Update README.md

有模型保存和测试的代码吗？

没有测试代码

← Metadata

Owner

Metadata

DRL-code-pytorch DRL-code-pytorch copied to clipboard

Metadata

← Metadata

Owner

Metadata

DRL-code-pytorch
DRL-code-pytorch copied to clipboard