reinforcement_learning_basic_book icon indicating copy to clipboard operation
reinforcement_learning_basic_book copied to clipboard

关于蒙特卡洛的一些问题

Open Geek-Peng opened this issue 5 years ago • 2 comments

您好,我初入RL领域,很是小白。 我的问题是: 蒙特卡洛方法主要针对的是无模型情况下的RL吗?无模型应该是不知道Pss',不知道状态转移概率是不是就是说不知道状态转移,但是我看您代码中,进行采样时,有用到Env.transform(),在该函数中,用到了状态转移啊。这不就是变成了有模型吗。 不知道我哪块理解错了,希望大佬指正! @zhuliquan

Geek-Peng avatar Mar 11 '19 09:03 Geek-Peng

蒙特卡洛模型是无模型的,因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报,用于后面的评估,同时环境也没有显式的告诉自己的转移矩阵。

zhuliquan avatar Mar 12 '19 07:03 zhuliquan

蒙特卡洛模型是无模型的,因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报,用于后面的评估,同时环境也没有显式的告诉自己的转移矩阵。

多谢!

Geek-Peng avatar Mar 13 '19 11:03 Geek-Peng