Reinforcement-learning-with-tensorflow
Reinforcement-learning-with-tensorflow copied to clipboard
关于actor多维连续动作值的概率密度构建
莫烦:您好
请问如果actor输出多维连续动作值,那么还能用函数tf.distributions.Normal构建多维概率密度吗?如果能,那么函数方法prob_log输出tensor的维度与样本维度一致,即不能与标量retrun相乘。请问该如何解决这个问题?
谢谢
我感觉是构造多个二项分布相乘就可以了。
多个连续动作需要构建多个高斯分布,将每个高斯分布得到的概率相乘就是最后的概率。