reinforcement_learning_basic_book
reinforcement_learning_basic_book copied to clipboard
关于蒙特卡洛的一些问题
您好,我初入RL领域,很是小白。 我的问题是: 蒙特卡洛方法主要针对的是无模型情况下的RL吗?无模型应该是不知道Pss',不知道状态转移概率是不是就是说不知道状态转移,但是我看您代码中,进行采样时,有用到Env.transform(),在该函数中,用到了状态转移啊。这不就是变成了有模型吗。 不知道我哪块理解错了,希望大佬指正! @zhuliquan
蒙特卡洛模型是无模型的,因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报,用于后面的评估,同时环境也没有显式的告诉自己的转移矩阵。
蒙特卡洛模型是无模型的,因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报,用于后面的评估,同时环境也没有显式的告诉自己的转移矩阵。
多谢!