Reinforcement-learning-with-tensorflow issues

是不是NN的哪里有问题，导致保存trasition时shape出错？

store_transition self.memory[index, :] = transition ValueError: could not broadcast input array from shape (26) into shape (32) print(self.memory.shape, transition.shape) 打印出来：(10000, 32) (26,) 哪位大侠能提供下解决这一问题的思路？

silkyrose

state的形式

1

Hi 博主，我的state是一个列表，初始值为[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]，选择action时出错：TypeError: tuple indices must be integers or slices, not tuple 我认为state已经是(1, size_of_observation)形式了，就注释掉了，observation = observation[np.newaxis,...

silkyrose

Dueling DQN 能解决斗地主智能问题吗？

peterwangx

min_prob 永遠返回 0

1

https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/5.2_Prioritized_Replay_DQN/RL_brain.py#L114 ``` min_prob = np.min(self.tree.tree[-self.tree.capacity:]) / self.tree.total_p # for later calculate ISweight ``` 由於Sumtree 在剛開始的時候存在大量 0 所以 np.min 會返回 0 而導致 ``` ISWeights[i, 0] = np.power(prob/min_prob, -self.beta) ``` 返回錯誤

shtse8

A3C程序中奖励函数的权重问题

1

对于奖励函数的设定是不是有什么要求啊？在A3C算法中使用的是状态值而不是动作值，那么奖励函数中的是不是要跟状态变量直接相关？而且还有个很迷奇的问题，为什么在相同权重的条件下，两次运行的结果差别很大？目前我的累积奖励值虽然有收敛趋势，但是波动还是很大！ ![total_reward](https://user-images.githubusercontent.com/68805707/88475050-08850700-cf5f-11ea-9aa5-30e2faf4aff8.png)

Kaysenc0703

请问actor-critic中的critic预测价值，可以设计为预测action value分布吗？

然后取相应action的value计算v和v'

Hins

using unity

2

does your Deep Q Network (DQN) code work for 3d objects in unity or its only for 2d objects ?

salmagabr

DDPG——当动作为取值范围不同的二维情况应该怎么解决呢？

在我研究的问题中，agent的动作包含两个维度，且两个维度的取值范围不一样，请问怎么解决这个问题呢，谢谢各位的回答先！

Tonywangrui

关于actor多维连续动作值的概率密度构建

2

莫烦：您好请问如果actor输出多维连续动作值，那么还能用函数tf.distributions.Normal构建多维概率密度吗？如果能，那么函数方法prob_log输出tensor的维度与样本维度一致，即不能与标量retrun相乘。请问该如何解决这个问题？谢谢

sasforce

simply_PPO中与环境交互时为什么不使用old_pi而是pi

3

`with tf.variable_scope('sample_action'): self.sample_op = tf.squeeze(pi.sample(1), axis=0) # choosing action` 代码中与环境交互使用的是new_pi, 但是根据surrogate loss 公式的话， ![CAPTURE_201965_161923](https://user-images.githubusercontent.com/31461198/58941123-b65ab280-87ad-11e9-862e-6e7b868183e1.jpg) 不应该都用old pi 交互吗

Qiyangcao

Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard

Metadata

是不是NN的哪里有问题，导致保存trasition时shape出错？

state的形式

Dueling DQN 能解决斗地主智能问题吗？

min_prob 永遠返回 0

A3C程序中奖励函数的权重问题

请问actor-critic中的critic预测价值，可以设计为预测action value分布吗？

using unity

DDPG——当动作为取值范围不同的二维情况应该怎么解决呢？

关于actor多维连续动作值的概率密度构建

simply_PPO中与环境交互时为什么不使用old_pi而是pi

← Metadata

Owner

Metadata

Reinforcement-learning-with-tensorflow Reinforcement-learning-with-tensorflow copied to clipboard

Metadata

← Metadata

Owner

Metadata

Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard