Reinforcement-learning-with-tensorflow icon indicating copy to clipboard operation
Reinforcement-learning-with-tensorflow copied to clipboard

关于actor多维连续动作值的概率密度构建

Open sasforce opened this issue 5 years ago • 2 comments

莫烦:您好

请问如果actor输出多维连续动作值,那么还能用函数tf.distributions.Normal构建多维概率密度吗?如果能,那么函数方法prob_log输出tensor的维度与样本维度一致,即不能与标量retrun相乘。请问该如何解决这个问题?

谢谢

sasforce avatar Nov 13 '19 08:11 sasforce

我感觉是构造多个二项分布相乘就可以了。

bcahlit avatar Dec 30 '19 13:12 bcahlit

多个连续动作需要构建多个高斯分布,将每个高斯分布得到的概率相乘就是最后的概率。

SZH1230456 avatar Jun 09 '20 06:06 SZH1230456