Reinforcement-learning-with-tensorflow icon indicating copy to clipboard operation
Reinforcement-learning-with-tensorflow copied to clipboard

Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

Results 69 Reinforcement-learning-with-tensorflow issues
Sort by recently updated
recently updated
newest added

https://github.com/RoyE3BBB/DQL.git 若有冒犯请告知!

Hi, thank you for implementations but unfortunately, PPO (continuous versions) doesn't converge!

莫凡你好, 我想问一下,如果我的每个episode的长度不一样该怎么办呢? 比如,我的每个episode都是以agent到达目的地结束,但是到达目的地的步数是不一样的。这种情况下该如何把他们变成一样的呢?

通过莫烦写的ddpg,tensorflow程序进行tf.keras改写,过程中发现在更新a网络时,其loss是通过c网络predict出来的,但predict计算得到的q无法反向传播,无法给a网络更新权重,有大神解决这个问题么?(难道是版本问题,)

Hi 莫凡,非常感谢你的视频,我的程序终于运行了。但是我发现state 的范围很大的时候,agent 并不能学习很好。 我要解决的问题是: 在一个N*N 的空间内,一个小车从【N,N】 出发,想要走到【0,0】,速度可取值范围是【0,0】。速度是水平和竖直方向的。 当N为5的时候,学习到的概率很大,当N过大的时候,他的学习就很难了,很容易陷入局部最优。我把它探索的所有的位置都画出来了。 ![position_dis_7](https://user-images.githubusercontent.com/35152882/75268523-38b45800-57bd-11ea-9a58-231b5f80754e.png) ![position_dis_6](https://user-images.githubusercontent.com/35152882/75268462-23d7c480-57bd-11ea-8d1e-b74235506498.png) 然后后来我又换了另外一套速度: 角度和速度。水平和竖直方向的速度就成了速度的分量。但是这一种表现更差。最优的方式是45度,但我的角度可取值范围是【-90,90】,然后它每次都会取极值,不会取中间值。 是不是DDPG不太适合做这种学习?用PPO会不会好一些?

Hey! I noticed that the Prioritized_Replay_DQN code does not work and it is vanilla DQN if you force the condition: if self.prioritized to: if True Then the following error appears:...

``` def get_env_feedback(S, A): # This is how agent will interact with the environment # S表示第几步0 - 4,A表示当前的动作left or right if A == 'right': # move right if S ==...

Thanks for you code, but I just change the code at the 69 line with 'his_prio = train(RL_natural)'. The meaning is I train the same object twice, but the result...

莫凡您好,我最近用您的a3c,看代码中有些疑惑向您请教: 1. A3C_RNN.PY的150行中,buffer_r.append((r+8)/8),这里为何要把奖励这样变呢? 2. 186行中,GLOBAL_RUNNING_R.append(0.9 * GLOBAL_RUNNING_R[-1] + 0.1 * ep_r),用于显示的总奖励为何要这样算呢?

In simply_PPO you multiple the action distribution's (Gaussian) mu by 2, why is that? `mu = 2 * tf.layers.dense(l1, A_DIM, tf.nn.tanh, trainable=trainable)`