reinforcement_learning_basic_book 关于蒙特卡洛的一些问题

关于蒙特卡洛的一些问题

Open Geek-Peng opened this issue 5 years ago • 2 comments

您好，我初入RL领域，很是小白。我的问题是：蒙特卡洛方法主要针对的是无模型情况下的RL吗？无模型应该是不知道Pss'，不知道状态转移概率是不是就是说不知道状态转移，但是我看您代码中，进行采样时，有用到Env.transform()，在该函数中，用到了状态转移啊。这不就是变成了有模型吗。不知道我哪块理解错了，希望大佬指正！ @zhuliquan

Mar 11 '19 09:03 Geek-Peng

蒙特卡洛模型是无模型的，因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报，用于后面的评估，同时环境也没有显式的告诉自己的转移矩阵。

Mar 12 '19 07:03 zhuliquan

蒙特卡洛模型是无模型的，因为在求解V(S) 过程没有使用状态转移矩阵。采样用到Env.transform只是为了让环境告诉agent不同状态对应的回报，用于后面的评估，同时环境也没有显式的告诉自己的转移矩阵。

多谢！

Mar 13 '19 11:03 Geek-Peng

reinforcement_learning_basic_book reinforcement_learning_basic_book copied to clipboard

关于蒙特卡洛的一些问题

reinforcement_learning_basic_book
reinforcement_learning_basic_book copied to clipboard