easy-rl icon indicating copy to clipboard operation
easy-rl copied to clipboard

PPO算法的实现, 为啥要给概率取对数?

Open chzhan opened this issue 1 year ago • 2 comments

如题, 公式里也没有需要取对数的地方, loss中也用不到对数(除了KL散度那一下), 就不大明白搞绕来绕去取对数再取指数求概率比值是为啥, 求解..

chzhan avatar Nov 15 '23 10:11 chzhan

我理解是为了将除法操作转换为减法操作吧

yl-jiang avatar Dec 06 '23 08:12 yl-jiang

我理解是为了将除法操作转换为减法操作吧

是的

johnjim0816 avatar Apr 27 '24 16:04 johnjim0816