easy-rl
easy-rl copied to clipboard
PPO算法的实现, 为啥要给概率取对数?
如题, 公式里也没有需要取对数的地方, loss中也用不到对数(除了KL散度那一下), 就不大明白搞绕来绕去取对数再取指数求概率比值是为啥, 求解..
我理解是为了将除法操作转换为减法操作吧
我理解是为了将除法操作转换为减法操作吧
是的