AlphaZero_Gomoku icon indicating copy to clipboard operation
AlphaZero_Gomoku copied to clipboard

alpha zero是如何避免在不可行的位置落子的

Open ZhangXi20181002 opened this issue 3 years ago • 2 comments

想请教一下,alpha zero是如何避免在不可行的位置落子的,比如该位置已经被占了,因为mcts在select的时候,每一个动作的概率是跟policy的输出有关,而在一开始的时候,policy是不知道哪些位置可行,哪些不可行,这样是否会产生不可行的动作?

ZhangXi20181002 avatar Sep 26 '20 07:09 ZhangXi20181002

在產生policy之後把所有不能動的位置的porb改成-INF或0 (有過softmax用0即可 沒有的話用-INF)

KohakuBlueleaf avatar Sep 28 '20 14:09 KohakuBlueleaf

在產生policy之後把所有不能動的位置的porb改成-INF或0 (有過softmax用0即可 沒有的話用-INF)

明白了,感谢您的解答!

ZhangXi20181002 avatar Sep 29 '20 07:09 ZhangXi20181002