tangmingkai
tangmingkai
可以。。。但为什么不直接内嵌到里面。。。感觉要先cast过去,再put_along_axis,再cast回来,就会比较麻烦
但是可能在一些情况下,模型里面要加一些特判,否则会运行错误
相当于在terminal的时候,可以选择的action为空集,例如说用RL求TSP问题,网络自动从所有候选点中选择下一个点走,在terminal的时候,候选点为空集,就会出错。
“TSP问题,你在调用value函数前,先判断一下是否已经选够那么多个点了不就可以了吗?” 我打算用DQN,如果最后一次不去学的话,相当于最后一步的数据学不到了 "如果你非要让网络输出,那你像NLP领域一样,增加一个结束标志在action set里面不也可以吗?" 这种方案确实可以
But the open.top().cost is the cost of suboptimal solution of the single-agent pathfinding problem. I think use open.top().cost directly cannot obtain the solution satisfying the condition cost(solution)