Reinforcement-learning-with-tensorflow issues

用Tensorflow 2.0 重写了一下DQL的教程代码

https://github.com/RoyE3BBB/DQL.git 若有冒犯请告知！

RoyE3BBB

PPO convergence

Hi, thank you for implementations but unfortunately, PPO (continuous versions) doesn't converge!

aliamiri1380

PPO中如何处理不同长度的episode？

莫凡你好，我想问一下，如果我的每个episode的长度不一样该怎么办呢？比如，我的每个episode都是以agent到达目的地结束，但是到达目的地的步数是不一样的。这种情况下该如何把他们变成一样的呢？

YingxiaoKong

ddpg的tf.keras改写

1

通过莫烦写的ddpg，tensorflow程序进行tf.keras改写，过程中发现在更新a网络时，其loss是通过c网络predict出来的，但predict计算得到的q无法反向传播，无法给a网络更新权重，有大神解决这个问题么？（难道是版本问题，）

QiuChenFeng

Hi 莫凡，非常感谢你的视频，我的程序终于运行了。但是我发现state 的范围很大的时候，agent 并不能学习很好。我要解决的问题是：在一个N*N 的空间内，一个小车从【N，N】出发，想要走到【0，0】，速度可取值范围是【0，0】。速度是水平和竖直方向的。当N为5的时候，学习到的概率很大，当N过大的时候，他的学习就很难了，很容易陷入局部最优。我把它探索的所有的位置都画出来了。 ![position_dis_7](https://user-images.githubusercontent.com/35152882/75268523-38b45800-57bd-11ea-9a58-231b5f80754e.png) ![position_dis_6](https://user-images.githubusercontent.com/35152882/75268462-23d7c480-57bd-11ea-8d1e-b74235506498.png) 然后后来我又换了另外一套速度：角度和速度。水平和竖直方向的速度就成了速度的分量。但是这一种表现更差。最优的方式是45度，但我的角度可取值范围是【-90，90】，然后它每次都会取极值，不会取中间值。是不是DDPG不太适合做这种学习？用PPO会不会好一些？

YingxiaoKong

icesit

PPO : Multiply Mu *2 ?

1

In simply_PPO you multiple the action distribution's (Gaussian) mu by 2, why is that? `mu = 2 * tf.layers.dense(l1, A_DIM, tf.nn.tanh, trainable=trainable)`

lhorus

Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard

Metadata

用Tensorflow 2.0 重写了一下DQL的教程代码

PPO convergence

PPO中如何处理不同长度的episode？

ddpg的tf.keras改写

使用DDPG探索范围很小

Prioritized_Replay_DQN not working

关于第一章get_env_feedback 公平问题

Questions about the 5.2_Prioritized_Replay_DQN

a3c的疑问

PPO : Multiply Mu *2 ?

← Metadata

Owner

Metadata

Reinforcement-learning-with-tensorflow Reinforcement-learning-with-tensorflow copied to clipboard

Metadata

← Metadata

Owner

Metadata

Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard