Reinforcement-learning-with-tensorflow 关于actor多维连续动作值的概率密度构建

关于actor多维连续动作值的概率密度构建

Open sasforce opened this issue 6 years ago • 2 comments

莫烦：您好

请问如果actor输出多维连续动作值，那么还能用函数tf.distributions.Normal构建多维概率密度吗？如果能，那么函数方法prob_log输出tensor的维度与样本维度一致，即不能与标量retrun相乘。请问该如何解决这个问题？

谢谢

Nov 13 '19 08:11 sasforce

我感觉是构造多个二项分布相乘就可以了。

Dec 30 '19 13:12 bcahlit

多个连续动作需要构建多个高斯分布，将每个高斯分布得到的概率相乘就是最后的概率。

Jun 09 '20 06:06 SZH1230456